Définition : Robots.txt

Expertise Technique mise à jour le 01/04/2026 par Cédric Martin

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un simple fichier texte placé à la racine d’un site web. Il sert à communiquer avec les robots d’indexation (aussi appelés web crawlers ou spiders) des moteurs de recherche comme Google, Bing ou Yahoo. Son objectif : indiquer quelles parties du site doivent ou non être explorées ou indexées. Il constitue ainsi un outil fondamental pour le contrôle de l’indexation de votre site web.

Fonctionnement et utilité du robots.txt

Les moteurs de recherche robots consultent automatiquement le fichier robots.txt dès leur arrivée sur votre site. Selon les directives robots.txt spécifiées, ils vont soit accéder, soit éviter certaines pages ou dossiers. C’est donc un levier efficace pour :

Où placer et comment créer un fichier robots.txt ?

Pour être pris en compte, le fichier robots.txt doit impérativement se situer à la racine du site web (exemple : https://www.monsite.fr/robots.txt). Pour créer un fichier robots.txt, il suffit d’utiliser un éditeur de texte (comme Notepad ou VSCode) et de l’enregistrer sous le nom exact robots.txt. Une fois créé, transférez-le à la racine de votre serveur, dans le dossier racine du site.

Syntaxe de base et principales directives

Le robots.txt fonctionne selon une syntaxe simple et universelle :

Exemple de structure :

User-agent: *
Disallow: /admin/
Allow: /admin/connexion.html
Sitemap: https://www.monsite.fr/sitemap.xml

Comment bloquer ou autoriser l’accès à certaines zones ?

Pour bloquer l’indexation d’un dossier ou d’une page, il suffit d’utiliser la directive Disallow :

User-agent: *
Disallow: /dossier-prive/
Disallow: /page-cachee.html

À l’inverse, pour autoriser une page située dans un dossier bloqué, combinez Disallow et Allow :

User-agent: *
Disallow: /blog/
Allow: /blog/article-important.html

À noter : le robots.txt ne protège pas contre l’accès direct à une URL, il sert uniquement à indiquer votre souhait aux robots d’indexation.

Bonnes pratiques et erreurs courantes

Exemples de fichiers robots.txt selon le type de site

Pour un site e-commerce :

User-agent: *
Disallow: /panier/
Disallow: /compte/
Disallow: /commande/
Allow: /produits/
Sitemap: https://www.maboutique.fr/sitemap.xml

Impact sur le référencement SEO

Le robots.txt joue un rôle clé dans la gestion de l’indexation site web. En contrôlant le crawl, vous orientez le budget d’exploration vers les pages stratégiques. Cependant, attention : bloquer une ressource via robots.txt n'empêche pas forcément son indexation si elle est liée par des liens externes. Il est recommandé de combiner robots.txt et balises meta robots (noindex).

FAQ sur le fichier robots.txt

Comment tester la validité de mon robots.txt ?

Utilisez le robots.txt checker de Google Search Console ou des outils spécialisés pour détecter les erreurs de syntaxe.

Peut-on empêcher totalement Google d’indexer un site ?

Oui, avec Disallow: /, mais l'usage de la balise noindex est plus sûr pour garantir la suppression des résultats de recherche.

Quelle est la taille maximale du fichier ?

La plupart des moteurs lisent les 500 premiers Ko. Un fichier trop lourd risque d'être ignoré en partie.

Lexique SEO Technique

Optimisez votre exploration technique

Une configuration SEO mal maîtrisée peut nuire gravement à votre visibilité. Contactez-moi pour un audit complet.

Demander un audit technique
← Retour au Lexique