Qu' est-ce que le fichier robots.txt ?
But du fichier
Le fichier robots.txt permet d' interdire à des moteurs de recherche des
répertoires entiers ou des pages. Il existe une erreur très fréquentes et relativement grave dans le nom du fichier :
robots.txt (en minuscule) avec un s.
Sinon, il ne sert a rien. (Merci à Damien Guigue de Yooda.com qui a trouvé cette erreur sur le site.)
Construction du fichier
Il est conseillé d' utiliser un éditeur de texte tel que le Bloc-notes.
Des programmes comme Word sont utilisables, mais avec précaution, car
le fichier sauvé sur le serveur peut parfois ne pas être au format
ASCI pur.
Le fichier est composé des deux instructions suivantes :
User-agent: { nom du robot }
Disallow: { document-a-exclure }
Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne
pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes
suivantes dans robots.txt :
User-agent: Scooter
Disallow: perso.html
Disallow: emploi.html
Syntaxe :
User-agent
| User-agent: { nom du robot } |
L' ordre concerne un robot précis |
| User-agent:* |
L' ordre concerne tous les robots. |
Disallow
| Disallow:/index2.htm |
Indique aux robots qu 'ils ne doivent pas indexer la page /index2.htm
situé à la racine du site. |
| Disallow:/admin/ |
Indique aux robots qu 'ils ne peuvent indexer les fichiers contenus
dans le répertoire admin. |
| Disallow: |
Indique aux robots que tout doit être indexé. Identique
à un fichier robots.txt inexistant. |
Noindex
| Noindex |
Ne pas indexer les pages |
Commentaires
| # commentaires |
Vos commentaires doivent être précédé d' un
# |
Google
Quelques commandes réservées uniquement à Google
| nosnippet |
Ne pas mettre d' extraits de pages |
| noarchives |
Émécher l' archivage des pages |
Règles et précautions
- Il doit exister un seul fichier robots.txt sur l' ensemble de votre site.
- Il doit être situé à la racine de votre site
- L' astérisque (*) n' est acceptée que dans le champ User-agent.
- Vous devez créer plusieurs sections User-agent si vous souhaitez que votre
fichier robots.txt s' applique à différents moteurs de recherche.
- Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
- Votre fichier robots.txt doit être en mode ASCII.
La liste de de certains robots
| Outil de recherche: |
User-Agent de l' outil: |
| Alta Vista |
Scooter |
| Infoseek |
InfoSeek Sidewinder |
| Excite |
ArchitextSpider |
| Lycos |
Lycos_Spider_(T-Rex) |
| Northern Light |
Gulliver |
Pour tester votre propre fichier
Pour plus d' informations
Site en anglais traitant du sujet : www.robotstxt.org
|
 |
| Toutes les heures, le serveur contrôle que votre site est en ligne. En cas de problème, un mail vous est envoyé. |
 |
| Vous avez l'habitude d'oublier les dates importantes? Oubli vous prévient gratuitement par email ! |
|
|