Comment Google gère ses billions de pages web ?
837 Vues
Aujourd’hui, Google a mis à jour son site « Au coeur de la recherche » qui explique comment marche la recherche dans son moteur de recherche dont notamment l’exploration, l’indexation, son algorithme (en mode grand public) et la lutte contre le spam sur les pages web.
30 billions de pages sur le web
Savez-vous que le web supporte plus de 30 billions de pages web ce qui représente l’équivalent de 100 millions de gigabytes, bienvenue dans l’ère de la big data où Eric Schmidt avait annoncé en 2010 que « Tous les deux jours, nous créons autant d’informations que pour l’entière année de 2003″.
Cette infographie dynamique nous explique également quels sont les éléments à prendre en compte dans l’algorithme du moteur de recherche et plus intéressant comment Google classe les sites web selon plus de 200 différents facteurs dont notamment :
- La qualité de la page et du site
- La fraîcheur de l’information
- La recherche sécurisée (moins d’images et de vidéos dans les résultats)
- Le contexte de l’utilisateur (contexte géographique, historique de l’utilisateur)
- La traduction
- Etc …
Tous ces facteurs sont calculés en 1/8ème de seconde par Google.
Voici une vidéo expliquant comment fonctionne la recherche chez Google par Matt Cuts :
La page Google de la lutte de spam en temps réel
Le site propose aussi un exemple de la lutte de spam en temps réel combattu par Google. Pour démontrer son combat, le moteur de recherche montre quelques exemples de sites qui suppriment des résultats de recherche, en moyenne le géant du web supprime entre 40 000 et 60 000 pages web par mois. Impressionant, on se croirait rentré dans l’algorithme de Google.
Pour Google, les différents types de spam peuvent prendre les formes suivantes :
- Le cloaking
- Les redirections trompeuses
- Le contenu de faible qualité contenant peu d’informations utiles
- Les liens artificiels
- Les textes cachés et l’accumulation de mots-clés
- Etc…
En outre, Google retrace sur le site l’historique de sa lutte contre le spam dont le plus récent est la mise à jour de l’algorithme avec Penguin en avril 2012 qui a rétrogradé les sites utilisant les différentes techniques de spam.
Le pic de pages spams retiré est de 553 994 vers le milieu de l’année de 2011.
A noter que cette forme d’infographie dynamique n’est pas nouvelle chez Google qui en a sorti une pour Google Mail l’année dernière. En sortant ces infographies, Google essaye de rendre compréhensibles ces produits et de rendre la technologie plus accessible à ces utilisateurs.
Comments