arbre
 

Qu' est-ce que le fichier robots.txt ?

But du fichier

Le fichier robots.txt permet d' interdire à des moteurs de recherche des répertoires entiers ou des pages. Il existe une erreur très fréquentes et relativement grave dans le nom du fichier : robots.txt (en minuscule) avec un s. Sinon, il ne sert a rien. (Merci à Damien Guigue de Yooda.com qui a trouvé cette erreur sur le site.)

Construction du fichier

Il est conseillé d' utiliser un éditeur de texte tel que le Bloc-notes. Des programmes comme Word sont utilisables, mais avec précaution, car le fichier sauvé sur le serveur peut parfois ne pas être au format ASCI pur.

Le fichier est composé des deux instructions suivantes :

User-agent: { nom du robot }
Disallow: { document-a-exclure }

Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes suivantes dans robots.txt :

User-agent: Scooter
Disallow: perso.html
Disallow: emploi.html

Syntaxe :

User-agent
 User-agent: { nom du robot }  L' ordre concerne un robot précis
 User-agent:*  L' ordre concerne tous les robots.

Disallow
 Disallow:/index2.htm  Indique aux robots qu 'ils ne doivent pas indexer la page /index2.htm situé à la racine du site.
 Disallow:/admin/  Indique aux robots qu 'ils ne peuvent indexer les fichiers contenus dans le répertoire admin.
 Disallow:  Indique aux robots que tout doit être indexé. Identique à un fichier robots.txt inexistant.

Noindex

 Noindex   Ne pas indexer les pages

Commentaires
 # commentaires  Vos commentaires doivent être précédé d' un #

Google

Quelques commandes réservées uniquement à Google

 nosnippet   Ne pas mettre d' extraits de pages
 noarchives   Émécher l' archivage des pages

Règles et précautions

  • Il doit exister un seul fichier robots.txt sur l' ensemble de votre site.
  • Il doit être situé à la racine de votre site
  • L' astérisque (*) n' est acceptée que dans le champ User-agent.
  • Vous devez créer plusieurs sections User-agent si vous souhaitez que votre fichier robots.txt s' applique à différents moteurs de recherche.
  • Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
  • Votre fichier robots.txt doit être en mode ASCII.

La liste de de certains robots

Outil de recherche:  User-Agent de l' outil:
Alta Vista Scooter 
Infoseek  InfoSeek Sidewinder
Excite ArchitextSpider
Lycos Lycos_Spider_(T-Rex) 
Northern Light Gulliver

Pour tester votre propre fichier

Outils proposés par Yooda.com
Votre site:

Pour plus d' informations

Site en anglais traitant du sujet : www.robotstxt.org
Toutes les heures, le serveur contrôle que votre site est en ligne. En cas de problème, un mail vous est envoyé.
Vous avez l'habitude d'oublier les dates importantes? Oubli vous prévient gratuitement par email !

Page modifiée le 21/06/2009 620 visiteur(s) aujourd'hui
Comment créer son site

Robots.txt