altevo.net

Blocage de robots d'indexation sur son site web

Fuckin GoogleBot !

 

Lorsque l'on publie un site web, les robots des géants du web (google, microsoft, yahoo, etc..) scannent automatiquement son contenu dans le but de l'indexer sur leurs moteurs de recherche et de le rendre visible à tous leurs utilisateurs.

 

Cependant tout le monde ne souhaite pas forcément faire exploser le compteur de visites ni que son contenu soit indexé sur ces moteurs, sans accord ni préavis qui plus est ! Si vous souhaitez les empêcher d'accéder à tout ou une partie de votre site, il existe une solution efficace et assez simple à mettre en place.

 

Lorsqu'un robot d'indexation (web crawler) se connecte à un site internet, par convention, il tente tout d'abords d'accéder à un fichier nommé robots.txt avant d'explorer et d'indexer le contenu. Si ce fichier est présent à la racine de votre site et qu'il contient ce qu'il faut, le robot peut être exclu et seul votre nom de domaine (exemple altevo.net) sera alors indexé sur le moteur de recherche qui l'a envoyé.

 

Il vous suffit de créer un nouveau fichier texte et de le nommer robot.txt (sans majuscules), puis d'y ajouter des instructions en fonction des robots que vous souhaitez exclure. Visitez robots-txt.com pour les obtenir en détail. Lorsque c'est fait, enregistrez vos modifications et envoyez ce fichier à la racine de votre site, par exemple si votre domaine est http://www.toto.fr/, le fichier devra obligatoirement se situer à l'adresse http://www.toto.fr/robots.txt.

 

Notez cependant que la prise en compte du fichier n'est pas immédiate, elle sera effective au prochain passage de ces robots sur votre site.

Voici un exemple pré-rempli et commenté qui peut vous faire gagner du temps, les lignes précédées d'un # sont juste des commentaires ignorés par les robots:

 

# robots.txt

# blocage google principal
User-agent: Googlebot
Disallow: /

# blocage google actualites
User-agent: Googlebot-News
Disallow: /

# blocage google images
User-agent: Googlebot-Image
Disallow: /

# blocage google videos
User-agent: Googlebot-Video
Disallow: /

# blocage google mobile
User-agent: Googlebot-Mobile
Disallow: /

# blocage google adsense
User-agent: Mediapartners-Google
Disallow: /

# blocage google adsense mobile
User-agent: Mediapartners
Disallow: /

# blocage google ads adw
User-agent: AdsBot-Google
Disallow: /

# blocage bing
User-agent: bingbot
Disallow: /

# blocage bing msn
User-agent: msnbot
Disallow: /

# blocage yahoo
User-agent: Yahoo! Slurp
Disallow: /

# blocage baidu principal
User-agent: Baiduspider
Disallow: /

# blocage baidu images
User-agent: Baiduspider-image
Disallow: /

# blocage baidu mobile
User-agent: Baiduspider-mobile
Disallow: /

# blocage baidu videos
User-agent: Baiduspider-video
Disallow: /

# blocage baidu actualites
User-agent: Baiduspider-news
Disallow: /

# blocage baidu bookmarks
User-agent: Baiduspider-favo
Disallow: /

# blocage yandex principal
User-agent: Yandex
Disallow: /

# blocage yandex medias
User-agent: YandexMedia
Disallow: /

# blocage yandex images
User-agent: YandexImages
Disallow: /

# blocage yandex blogs
User-agent: YandexBlogs
Disallow: /

# blocage yandex actualites
User-agent: YandexNews
Disallow: /

# blocage ask
User-agent: Teoma
Disallow: /

# blocage exalead
User-agent: Exabot
Disallow: /

# blocage voila
User-agent: Voilabot
Disallow: /

# blocage alexa
User-agent: ia_archiver
Disallow: /

 

Attention cette solution peut s'avérer insuffisante, dans certains cas, des pages de votre site peuvent finir par être référencées. Vous pouvez alors utiliser conjointement une seconde méthode, plus laborieuse mais radicale: la balise meta robots, directement dans vos pages web.