Qu’est ce qu’un spider ?

 In General

Aussi connu sous le nom de robot, le spider est un élément incontournable du web, et sans lui, les moteurs de recherche n’existeraient pas.

Le spider (ce qui signifie araignée en Français) est un “robot” qui va visiter toutes les pages du web, et va ensuite permettre aux moteurs de recherche d’indexer les pages et médias.

Quel est le fonctionnement d’un spider ?

Un spider est avant tout un programme très léger qui permet de visiter un grand nombre de pages très rapidement. Un spider tel que ceux des grands moteurs de recherche comme Google ou Bing peut parcourir plusieurs millions de pages par heure.

Le fonctionnement d’un spider est assez simple car il se contente de visiter une page et de décomposer celle-ci en plusieurs parties : texte “utile” (pour l’internaute, donc tout ce qui n’est pas du code permettant l’affichage de la page), médias, etc.

Une fois ce texte et ces médias détectés, il va envoyer ces informations à la base de données.
C’est ensuite, en fonction de leur algorithme, que les moteurs de recherche vont déterminer si ces éléments doivent être indexés ou non.

Les spiders et le référencement

Les moteurs de recherche attribuent une certaine quantité de temps pour chaque site, que l’on appelle crawl budget.
Ce temps n’est pas fixe, et peut évoluer, dans un sens ou dans l’autre.

Afin de mettre le maximum de chances de son côté et avoir le plus de chances possible de voir un maximum de pages indexées par les moteurs de recherche, il faut penser à optimiser son site pour favoriser une circulation optimale pour les spiders.

Ainsi par exemple, il faudra éviter de créer des “culs de sacs” d’où le spider ne saura pas sortir. Il faut aussi lui indiquer (entre autre via le fichier robots.txt, les pages que l’on ne veut pas qu’il consulte).
En optimisant la visite des moteurs de recherche, vous maximiserez vos chances d’être mieux positionné.

Autre facteur à prendre en compte : les languages utilisés pour faire votre site.
Ainsi par exemple mieux vaudra effectuer des sites entièrement codés en JS car bien que très jolis, ceux-ci sont souvent très mal compris par Google (même si avec l’arrivée de Chromium, utilisés maintenant par ses spiders), il “comprend” mieux les sites.

Recent Posts
indexation ou positionnementurl-rewritting