Accueil » Webmarketing » eMarketing » Comment les robots parcourent-ils votre site ?

Comment les robots parcourent-ils votre site ?

Une idée très intéressante d’étude a été mise en place par des chercheurs allemands afin de comprendre comment les 3 grands moteurs de recherche indexent et crawlent les sites visités. Pour se faire, ils ont créé un site de 2.147.483.467 pages, reliées entre elles uniquement de la manière suivante : la page du dessus est reliée à deux pages sous elle et ainsi de suite (arbre binaire). Après avoir laissé le site sans le toucher pendant un an, les chercheurs se sont penchés sur les logs du site.
Les résultats sont pour le moins intéressants, et on s’aperçoit que Yahoo ! parcoure le plus de page, largement devant Google sans parler de MSN. Le rapport entre les deux est de 1 pour 500. Et Yahoo ! n’a pourtant parcouru que 0.005% de l’arbre, ce qui ramené grossièrement à l’échelle du web, montre que l’information disponible et non crawlée est immense (ce fameux web invisible).
Par rapport à la qualité du crawl des bots des moteurs, c’est, selon ces chercheurs, Google qui le fait le mieux. Il semble en effet plus rationnel que le Slurp de Yahoo ! grâce à un bon respect de son PageRank.
Il est à noter que Yahoo ! semble gonfler ses résultats, annonçant 120.000 pages dans son cache alors que seulement 106.000 nœuds ont été parcourus.
Cette étude est disponible ici, et vous apprendra encore plus de choses intéressantes par rapport au fonctionnement des bots des moteurs.
(Merci à Olivier pour avoir trouvé ceci)

A propos de Julien Lombard-Donnet

Un commentaire

  1. Je découvre ton blog. Il est très intéressant. Certes, il y a quelques termes techniques que je ne comprends pas mais je parviens à comprendre la note, c’est le principal.
    Yahoo parcourt le plus de pages, étonnant et intéressant à savoir.