Votre site n’apparaît pas dans Google, ou au contraire certaines zones que vous ne souhaitez pas voir explorées sont parcourues par les moteurs de recherche. Le fichier robots.txt est parfois en cause. Pourtant, il reste l’un des éléments les moins compris dans l’écosystème WordPress.
Ce fichier joue un rôle précis dans la façon dont les robots explorent votre site. Mal configuré, il peut perturber l’exploration de vos contenus sans que vous vous en rendiez compte. Bien configuré, il permet d’orienter utilement les robots vers les zones qui comptent vraiment.
Dans cet article, vous allez comprendre à quoi sert réellement ce fichier, comment WordPress le gère, comment filtrer certains robots d’intelligence artificielle, et comment construire une configuration de base adaptée à un site vitrine.
À quoi sert le fichier robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine de votre site. Son rôle est d’indiquer aux robots d’exploration, comme Googlebot (Google) ou Bingbot (Microsoft), quelles parties de votre site ils peuvent parcourir et lesquelles ils doivent éviter.
Il repose sur le protocole d’exclusion des robots, une convention adoptée par les principaux moteurs de recherche. Ce n’est pas un mécanisme de blocage technique : un robot mal intentionné peut parfaitement l’ignorer. Les robots des moteurs de recherche sérieux le respectent, mais rien ne les y oblige techniquement.
Ce que fait robots.txt
- Il indique aux robots quelles zones explorer et lesquelles ignorer. Cela permet d’éviter qu’ils parcourent des zones inutiles ou indésirables : pages d’administration, résultats de recherche interne, pages de filtres générées automatiquement.
- Il aide aussi à ne pas gaspiller ce que Google appelle le crawl budget, c’est-à-dire le nombre de pages qu’il accepte d’explorer sur votre site dans un laps de temps donné. Sur un petit site, l’impact reste souvent limité. Sur un site volumineux, orienter l’exploration devient plus pertinent.
Ce que ne fait pas robots.txt
- Il ne contrôle pas l’indexation à lui seul. Une page peut être indexée par Google sans avoir été explorée directement, par exemple si d’autres sites pointent vers elle.
- Il ne protège pas le contenu. Une règle
Disallown’empêche pas un visiteur d’accéder à une URL s’il la connaît.
WordPress génère un robots.txt virtuel
Par défaut, WordPress ne crée pas de fichier robots.txt physique sur votre serveur. Le contenu est généré dynamiquement lorsqu’une requête est faite sur l’URL https://monsite.fr/robots.txt. Si vous consultez cette adresse, vous obtenez bien une réponse, mais aucun fichier correspondant n’existe forcément à la racine de votre site.
Ce mécanisme repose sur une règle de réécriture d’URL. Lorsque cette requête arrive, le serveur web la fait traiter par WordPress, qui génère la réponse à la volée. Les extensions SEO comme Yoast SEO, Rank Math ou SEOPress s’appuient sur ce même mécanisme pour vous permettre de personnaliser le contenu du fichier depuis l’interface d’administration.
Par défaut, WordPress génère un robots.txt minimal qui ressemble à ceci :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.phpAttention au fichier physique : si un fichier robots.txt existe réellement à la racine de votre site, le serveur web le sert directement sans passer par WordPress. La version virtuelle ne fonctionne donc que s’il n’existe pas déjà un fichier physique.
Les robots d’intelligence artificielle et le robots.txt
Depuis quelques années, de nouveaux robots sont apparus : ceux de certaines plateformes d’intelligence artificielle. GPTBot (OpenAI), ClaudeBot (Anthropic), Amazonbot ou encore Bytespider (ByteDance) parcourent le web pour collecter des données destinées à différents usages, dont l’entraînement ou l’alimentation de leurs services.
Plusieurs de ces robots déclarent reconnaître et respecter le protocole robots.txt, comme le font les grands moteurs de recherche. En pratique, cela dépend toutefois des acteurs et des robots concernés. Il reste donc possible de tenter de les bloquer en ajoutant des règles spécifiques dans votre fichier.
Ce que permet le protocole
Vous pouvez cibler un robot précisément en utilisant son nom dans la directive User-agent, puis lui interdire l’accès à tout ou partie de votre site avec Disallow.
Par exemple, pour bloquer GPTBot :
User-agent: GPTBot
Disallow: /Ou pour bloquer plusieurs robots d’IA en une fois :
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Amazonbot
User-agent: Bytespider
User-agent: PerplexityBot
User-agent: Google-Extended
Disallow: /Les limites réelles
Le protocole robots.txt repose sur le respect volontaire des robots. Certains grands acteurs affirment suivre ces règles. Mais tous les robots qui collectent des données pour l’IA ne jouent pas forcément le jeu. Certains peuvent ignorer délibérément le fichier, d’autres opérer sous des noms génériques difficiles à identifier.
Mettre en place ces règles reste utile. Ce n’est simplement pas une garantie absolue.
Exemple de configuration pour un site vitrine WordPress
Voici une configuration de base adaptée à un site vitrine WordPress standard : quelques pages, pas de boutique, pas d’espace membre.
L’objectif est d’orienter les robots vers les contenus utiles, d’écarter les zones techniques sans intérêt pour l’exploration, et de déclarer clairement le sitemap.
# -------------------------------------------------
# Règles générales
# -------------------------------------------------
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
# -------------------------------------------------
# Sitemap
# -------------------------------------------------
Sitemap: https://monsite.fr/sitemap_index.xmlQuelques précisions sur les choix faits ici
- Cette configuration reste volontairement simple. Elle convient à beaucoup de sites vitrines classiques, mais elle peut être enrichie selon votre contexte.
- Les pages de recherche interne peuvent aussi être exclues de l’exploration, par exemple avec une règle visant
/?s=. Ce n’est pas indispensable dans tous les cas, mais cela peut être pertinent selon la structure du site. - Le blocage des URLs à paramètres doit être manié avec prudence. Une règle trop large peut empêcher l’exploration de pages utiles. Mieux vaut l’ajouter seulement si vous comprenez précisément son effet sur votre site.
- La section dédiée aux robots d’intelligence artificielle est optionnelle. Si vous souhaitez restreindre leur exploration, vous pouvez ajouter un bloc spécifique pour chacun d’eux.
- Si ce fichier est physique, il prend le dessus sur le fichier virtuel généré par WordPress ou par votre extension SEO. Le sitemap doit donc être déclaré explicitement ici, avec l’URL correcte.
Les erreurs courantes
Bloquer tout le site avec Disallow: /
C’est l’erreur la plus grave et l’une des plus fréquentes. Une seule ligne suffit à interdire à Google d’explorer l’intégralité de votre site :
User-agent: *
Disallow: /Cette configuration est souvent mise en place pendant le développement, puis oubliée au moment de la mise en ligne. Elle est parfois confondue avec une vraie protection du site : bloquer l’exploration ne protège pas l’accès, et n’empêche pas forcément l’indexation si des liens externes pointent vers vos pages. Le résultat est un site invisible dans Google, sans message d’erreur apparent.
Google Search Console permet de repérer ce type de problème, ce qui souligne l’intérêt de la consulter régulièrement.
Des erreurs de syntaxe qui faussent tout
Un fichier robots.txt mal nommé (Robots.TXT au lieu de robots.txt), placé ailleurs qu’à la racine du site, ou comportant des directives mal structurées risque d’être ignoré, totalement ou partiellement, par les robots.
L’absence de User-agent en tête d’un bloc rend les règles qui suivent invalides. Des directives contradictoires sur une même URL peuvent aussi être interprétées différemment selon les robots :
Disallow: /actualites/
Allow: /actualites/L’utilisation excessive de jokers peut bloquer bien plus de pages que prévu. Une règle trop large peut vite produire des effets indésirables.
Bloquer des ressources CSS et JavaScript
Bloquer des répertoires comme /wp-content/ ou /wp-includes/ peut empêcher Google d’accéder aux feuilles de style et aux scripts de votre site. Or Google a besoin de ces ressources pour afficher correctement vos pages et les analyser. Ce type de blocage peut dégrader votre référencement sans que la cause soit évidente.
Utiliser noindex dans robots.txt
La directive noindex n’est pas supportée dans le fichier robots.txt. Pour empêcher l’indexation d’une page, il faut utiliser une balise meta <meta name="robots" content="noindex">, ou passer par les réglages de votre extension SEO si elle permet de l’ajouter proprement.
Confondre robots.txt avec une protection d’accès
Une règle Disallow n’empêche pas un visiteur d’accéder à une URL s’il la connaît. Elle s’adresse uniquement aux robots qui respectent le protocole. Si vous devez vraiment protéger une zone, il faut mettre en place une authentification ou un autre mécanisme de contrôle d’accès.
Laisser des règles obsolètes
Un site qui change de structure, d’extension SEO ou de prestataire accumule parfois des règles qui ne correspondent plus à rien : répertoires inexistants, paramètres d’URL devenus inutiles, robots ciblés par un ancien nom. Un robots.txt non entretenu peut bloquer des zones utiles sans que personne ne s’en aperçoive.
Vérifiez votre fichier robots.txt avant que Google ne le fasse à votre place
Le fichier robots.txt est court, mais son impact peut être important. Une règle mal placée suffit à perturber l’exploration de votre site sans le moindre message d’erreur visible.
L’essentiel à retenir : il oriente l’exploration, pas l’indexation, et ne protège pas le contenu. Dans WordPress, il est généré virtuellement. Si vous créez un fichier physique, c’est lui qui prend le dessus, et vous devez tout y gérer vous-même, y compris la déclaration du sitemap.
Pour vérifier que votre configuration est correcte, Google Search Console propose des outils d’inspection utiles. Vous pouvez notamment contrôler si une URL est explorée, indexée, ou bloquée. Pour connecter et ajouter le sitemap de votre site à la Google Search Console, vous pouvez consulter l’article Comment connecter la Google Search Console à votre site. Si vous avez déjà un compte Google Search Console, vous pouvez tester l’indexation de votre fichier robots.txt à cette adresse.














C’est la base, mais si elle n’est pas appliquée correctement c’est le bazar assuré pour s’y retrouver dans la Google Search Console et surtout pour l’indexation des pages de son site ! Il faut bien penser à tester les règles qui sont mises en place, sans quoi on s’expose à des surprises. Et pour le fun, un fichier robots.txt vocal par John Mueller de Google https://johnmu.com/robots.txt