Guide complet du fichier robots.txt : rôle, bonnes pratiques et impact SEO

Sommaire

➔ Qu’est-ce qu’un fichier robots.txt ?
➔ Fonctionnement et utilité du robots.txt
➔ Où placer et comment créer un fichier robots.txt ?
➔ Syntaxe de base et principales directives
➔ Comment bloquer ou autoriser l’accès à certaines zones ?
➔ Bonnes pratiques et erreurs courantes
➔ Exemples de fichiers robots.txt selon le type de site
➔ Impact sur le référencement SEO
➔ FAQ sur le fichier robots.txt

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un simple fichier texte placé à la racine d’un site web. Il sert à communiquer avec les robots d’indexation (aussi appelés web crawlers ou spiders) des moteurs de recherche comme Google, Bing ou Yahoo. Son objectif : indiquer quelles parties du site doivent ou non être explorées ou indexées. Il constitue ainsi un outil fondamental pour le contrôle de l’indexation de votre site web.

Fonctionnement et utilité du robots.txt

Les moteurs de recherche robots consultent automatiquement le fichier robots.txt dès leur arrivée sur votre site. Selon les directives robots.txt spécifiées, ils vont soit accéder, soit éviter certaines pages ou dossiers. C’est donc un levier efficace pour :

Empêcher l’indexation de contenus sensibles ou inutiles (admin, scripts, pages en développement…)
Optimiser le budget crawl en évitant d’épuiser inutilement les ressources du serveur
Guider les bots vers le sitemap officiel du site

Où placer et comment créer un fichier robots.txt ?

Pour être pris en compte, le fichier robots.txt doit impérativement se situer à la racine du site web (exemple : https://www.monsite.fr/robots.txt). Pour créer un fichier robots.txt, il suffit d’utiliser un éditeur de texte (comme Notepad ou VSCode) et de l’enregistrer sous le nom exact robots.txt. Une fois créé, transférez-le à la racine de votre serveur, dans le dossier racine du site.

Syntaxe de base et principales directives

Le robots.txt fonctionne selon une syntaxe simple et universelle :

User-agent : désigne le robot visé (ex : Googlebot, Bingbot, ou * pour tous)
Disallow : interdit l’accès à un dossier ou une page
Allow : autorise explicitement l’accès (utile pour des exceptions)
Sitemap : indique l’URL du fichier sitemap XML

Exemple de structure :

User-agent: *
Disallow: /admin/
Allow: /admin/connexion.html
Sitemap: https://www.monsite.fr/sitemap.xml

Comment bloquer ou autoriser l’accès à certaines zones ?

Pour bloquer l’indexation d’un dossier ou d’une page, il suffit d’utiliser la directive Disallow :

User-agent: *
Disallow: /dossier-prive/
Disallow: /page-cachee.html

À l’inverse, pour autoriser une page située dans un dossier bloqué, combinez Disallow et Allow :

User-agent: *
Disallow: /blog/
Allow: /blog/article-important.html

À noter : le robots.txt ne protège pas contre l’accès direct à une URL, il sert uniquement à indiquer votre souhait aux robots d’indexation.

Bonnes pratiques et erreurs courantes

Vérifiez l’emplacement du fichier : il doit toujours être à la racine.
Testez systématiquement votre fichier avec un robots.txt checker.
Évitez de bloquer par erreur des ressources essentielles (CSS, JS, images nécessaires au rendu).
Ne bloquez jamais l’accès complet au site (Disallow: /) sauf cas exceptionnel.

Exemples de fichiers robots.txt selon le type de site

Pour un site e-commerce :

User-agent: *
Disallow: /panier/
Disallow: /compte/
Disallow: /commande/
Allow: /produits/
Sitemap: https://www.maboutique.fr/sitemap.xml

Impact sur le référencement SEO

Le robots.txt joue un rôle clé dans la gestion de l’indexation site web. En contrôlant le crawl, vous orientez le budget d’exploration vers les pages stratégiques. Cependant, attention : bloquer une ressource via robots.txt n'empêche pas forcément son indexation si elle est liée par des liens externes. Il est recommandé de combiner robots.txt et balises meta robots (noindex).

FAQ sur le fichier robots.txt

Comment tester la validité de mon robots.txt ?

Utilisez le robots.txt checker de Google Search Console ou des outils spécialisés pour détecter les erreurs de syntaxe.

Peut-on empêcher totalement Google d’indexer un site ?

Oui, avec Disallow: /, mais l'usage de la balise noindex est plus sûr pour garantir la suppression des résultats de recherche.

Quelle est la taille maximale du fichier ?

La plupart des moteurs lisent les 500 premiers Ko. Un fichier trop lourd risque d'être ignoré en partie.

Définition : Robots.txt