Un robot d’indexation est un programme informatique (script ou logiciel) qui explore internet pour identifier et enregistrer des informations, du contenu ou des pages web. Toutes sortes de contenu peuvent être récupérées grâce à un robot d’indexation que l’on appelle aussi « crawler » ou « spider ».
Certains robots indexeur ont été créés afin de rechercher uniquement des pages internet, des vidéos, des images, des documents PDF, etc.… D’autres ont été mis en place pour récupérer tous types de contenu mais dans des secteurs d’activité très précis, ce qui peut permettre par exemple de faire des portails d’informations, des annuaires spécialisé ou tout simplement de faire de la veille concurrentielle dans votre secteur d’activité.
Google et les autres moteurs de recherches ont des robots d’indexation qui explore les sites de tous les domaines (même ceux inventé) pour identifier et enregistrer les pages web ou leurs contenus.
Les spammeurs utilisent également des robots d’indexation afin de récupérer les adresses emails présentent sur internet ainsi que d’autres données qui peuvent leurs servir pour différentes techniques de spam.
Comment fonctionne un robot d’indexation ?
Le plus souvent les robots d’indexation explore une page web, récupère les liens interne et externe présent dans cette page puis reproduit la même opération sur chaque liens trouvé. La page web utilisé en premier pour permettre au robot de scanner le web peut être l’url d’un site ou l’url des résultats d’une requête sur un moteur de recherche.
D’autres robots peuvent être spécialement conçus pour collecter des informations sur un ou plusieurs sites très précis. Nous en avons réalisé plusieurs pour permettre à nos clients de récupérer automatiquement les mises à jour des produits sur les sites de leurs fournisseurs. La collecte des informations des nouveaux produits permet d’avoir un catalogue mise à jour en temps réelle.
Comment interdire les robots d’explorer un site internet ?
Pour interdire les robots des spammeurs ou les robots des moteurs de recherche de votre choix d’explorer votre site vous pouvez placer à la racine du ftp de votre site un fichier « robots.txt » qui contient les interdictions et les permissions d’exploration.
Pour éviter une surcharge inutile de votre serveur vous pouvez par exemple interdire l’accès aux robots des moteurs de recherches qui ne vous rapporte pas ou peu de visites ou dont les principaux utilisateurs ne font pas partis de votre cible. Par exemple si vous avez un site avec du contenu francophone vous pouvez bloquer Baidu qui est un moteur de recherche chinois.
Autre exemple il y a quelques temps sur plusieurs de nos sites nous avons bloqué l’accès au robot du moteur Voila car il scannait nos sites continuellement sans apporter beaucoup de visiteurs ciblé. Par contre si Google ne nous rapporte pas beaucoup de visites et qu’il scanne souvent votre site ne le bloquez pas et optimisez vos pages et votre contenu car à lui seul il représente plus de 80% des parts du marché de la recherche sur internet.
Il faut également savoir que tous les robots et même parfois Google ne respecte pas les indications faite dans le fichier robots.txt et dans ce cas il faut identifier les IP pour les bloquer.
Créer un robot d’indexation
Vous pouvez avoir besoin d’un robot d’indexation pour différents projet comme par exemple remplir un annuaire automatiquement, un portail d’information, un moteur de recherche, archiver des pages web, trouver des vidéos provenant de différentes sources, sauvegarder des pages pour les consulter sans connexion internet, collecter des adresses email ou des urls…
Nous pouvons mettre notre savoir faire à votre service et réaliser votre projet sur mesure donc n’hésitez pas à nous contacter pour tout type de création de robots informatique ou d’outil en ligne.
Popularity: 33% [?]