Aller au contenu

Comment optimiser votre fichier Robots.txt

Quicksprout Robots.txt
Rate this post

Le référencement va bien au-delà de la recherche de mots-clés et de la création de liens. Il existe également un aspect technique du référencement qui aura un impact important sur le classement de votre recherche.

C’est un domaine dans lequel votre fichier robots.txt deviendra un facteur.

D’après mon expérience, la plupart des gens ne sont pas très familiers avec les fichiers robots.txt et ne savent pas par où commencer. C’est ce qui m’a inspiré la création de ce guide.

Commençons par les bases. Qu’est-ce qu’un fichier robots.txt exactement ?

Lorsqu’un robot de moteur de recherche parcourt un site web, il utilise le fichier robots.txt pour déterminer les parties du site qui doivent être indexées.

Les sitemaps sont hébergés dans votre dossier racine et dans le fichier robots.txt. Vous créez un sitemap pour faciliter l’indexation de votre contenu par les moteurs de recherche.

Considérez votre fichier robots.txt comme un guide ou un manuel d’instructions pour les robots. C’est un guide qui contient des règles qu’ils doivent suivre. Ces règles indiqueront aux robots ce qu’ils sont autorisés à voir (comme les pages de votre plan de site) et quelles parties de votre site sont interdites.

Si votre fichier robots.txt n’est pas optimisé correctement, il peut causer des problèmes majeurs de référencement pour votre site web.

C’est pourquoi il est important que vous compreniez exactement comment cela fonctionne et ce que vous devez faire pour vous assurer que cette composante technique de votre site web vous aide, au lieu de vous nuire.

Trouvez votre fichier robots.txt

Avant toute chose, la première étape consiste à vérifier que vous disposez d’un fichier robots.txt pour commencer. Certains d’entre vous ne sont probablement jamais venus ici auparavant.

Le moyen le plus simple de savoir si votre site en possède déjà un est de placer l’URL de votre site dans un navigateur web, suivi de /robots.txt.

Voici à quoi ressemble le Quick Sprout.

Quicksprout Robots.txt

Lorsque vous faites cela, trois choses se produiront.

  1. Vous trouverez un fichier robots.txt qui ressemble à celui ci-dessus. (Bien que si vous n’avez jamais pris le temps de l’optimiser, alors il n’est probablement pas aussi approfondi).
  2. Vous trouverez un fichier robots.txt qui est complètement vide, mais au moins configuré.
  3. Vous obtiendrez une erreur 404 car cette page n’existe pas.

La plupart d’entre vous se retrouveront probablement dans les deux premiers scénarios. Vous ne devriez pas obtenir une erreur 404 car la majorité des sites web ont un fichier robots.txt configuré par défaut lors de la création du site. Ces paramètres par défaut devraient toujours être présents si vous n’avez jamais fait de modifications.

Pour créer ou modifier ce fichier, il suffit de naviguer jusqu’au dossier racine de votre site web.

Modifiez le contenu de votre robot.txt

En général, on ne veut pas trop s’en mêler. Ce n’est pas quelque chose que vous allez modifier fréquemment.

La seule raison pour laquelle vous voudriez ajouter quelque chose à votre fichier robots.txt est qu’il y a certaines pages de votre site web que vous ne voulez pas que les robots explorent et indexent.

Vous devez vous familiariser avec la syntaxe utilisée pour les commandes. Ouvrez donc un éditeur de texte simple pour écrire la syntaxe.

Je vais aborder la syntaxe la plus couramment utilisée.

Tout d’abord, vous devez identifier les chenilles. C’est ce qu’on appelle le User-agent.

User-agent : *

Cette syntaxe ci-dessus fait référence à tous les crawlers des moteurs de recherche (Google, Yahoo, Bing, etc.)

User-agent : Googlebot

Comme son nom l’indique, cette valeur s’adresse directement aux crawlers de Google.

Après avoir identifié le crawler, vous pouvez autoriser ou interdire le contenu de votre site. Voici un exemple que nous avons vu plus tôt dans le fichier robots.txt de Quick Sprout.

User-agent : *

Rejeter : /wp-contenu/

Cette page est utilisée pour notre backend administratif pour WordPress. Cette commande indique donc à tous les crawlers (User-agent : *) de ne pas crawler cette page. Il n’y a aucune raison pour que les robots perdent du temps à explorer cette page.

Supposons que vous vouliez dire à tous les robots de ne pas explorer cette page spécifique de votre site web. http://www.yourwebsite.com/samplepage1/

La syntaxe ressemblerait à ceci :

User-agent : *

Rejeter : /page échantillon1/

Voici un autre exemple :

Rejeter : /*.gif$

Cela bloquerait un type de fichier spécifique (dans ce cas, .gif). Vous pouvez vous référer à ce tableau de Google pour des règles et des exemples plus courants.

Règles et exemples communs de Robot.txt

Le concept est très simple.

Si vous souhaitez interdire l’accès aux pages, fichiers ou contenus de votre site à tous les crawlers (ou à des crawlers spécifiques), il vous suffit de trouver la commande syntaxique appropriée et de l’ajouter à votre éditeur de texte brut.

Une fois que vous avez fini d’écrire les commandes, il suffit de copier et de coller cela dans votre fichier robots.txt.

Pourquoi le fichier robots.txt doit être optimisé

Je sais ce que certains d’entre vous pensent. Pourquoi diable voudrais-je m’amuser avec tout cela ?

Voici ce que vous devez comprendre. Le but de votre fichier robots.txt n’est pas de bloquer complètement des pages ou le contenu d’un site à partir d’un moteur de recherche.

Au lieu de cela, vous essayez simplement de maximiser l’efficacité de leurs budgets d’appoint. Tout ce que vous faites, c’est dire aux robots qu’ils n’ont pas besoin d’explorer des pages qui ne sont pas faites pour le public.

Voici un résumé du fonctionnement du budget d’exploration de Google.

Il est divisé en deux parties :

  1. Limite du taux de ralenti
  2. Demande rampante

La limite du taux de crawl représente le nombre de connexions qu’un crawler peut effectuer sur un site donné. Cela inclut également le temps entre les extractions.

Les sites web qui réagissent rapidement ont un taux d’exploration plus élevé, ce qui signifie qu’ils peuvent avoir plus de connexions avec le robot. En revanche, les sites qui ralentissent à cause du crawling ne seront pas explorés aussi fréquemment.

Les sites sont également parcourus en fonction de la demande. Cela signifie que les sites populaires sont consultés plus fréquemment. En revanche, les sites qui ne sont pas populaires ou qui ne sont pas mis à jour fréquemment ne seront pas explorés aussi souvent, même si la limite du taux d’exploration n’a pas été atteinte.

En optimisant votre fichier robots.txt, vous facilitez grandement le travail des robots. Selon Google, ce sont là quelques exemples d’éléments qui influent sur les budgets des crawlers :

  • Identificateurs de session
  • Navigation à facettes
  • Pages d’erreur
  • Les pages qui ont été piratées
  • Duplication du contenu
  • Espaces infinis et procurations
  • Contenu de mauvaise qualité
  • Spam

En utilisant le fichier robots.txt pour interdire ce type de contenu aux crawlers, vous leur permettez de passer plus de temps à découvrir et à indexer le contenu principal de votre site web.

Voici une comparaison visuelle des sites avec et sans fichier robots.txt optimisé.

Comparaison visuelle de Robots.txt

Un crawler de moteur de recherche passera plus de temps, et donc une plus grande partie du budget de crawl, sur le site de gauche. Mais le site de droite veille à ce que seul le contenu de haut niveau soit exploré.

Voici un scénario dans lequel vous voudriez profiter du fichier robots.txt.

Comme vous le savez certainement, les contenus dupliqués sont préjudiciables au référencement. Mais il est parfois nécessaire d’avoir sur votre site web. Par exemple, certains d’entre vous peuvent avoir des versions imprimables de certaines pages. C’est du contenu dupliqué. Vous pouvez donc dire aux robots de ne pas explorer ces pages imprimables en optimisant la syntaxe de votre fichier robots.txt.

Tester votre fichier robots.txt

Une fois que vous avez trouvé, modifié et optimisé votre fichier robots.txt, il est temps de tout tester pour s’assurer qu’il fonctionne correctement.

Pour ce faire, vous devez vous connecter à votre compte Google Webmasters. Naviguez vers « crawl » depuis votre tableau de bord.

Outils pour les webmasters Crawl

Cela permettra d’élargir le menu.

Une fois que vous aurez développé le site, vous chercherez l’option « robots.txt Tester ».

Robots.txt Tester

Il suffit ensuite de cliquer sur le bouton « test » en bas à droite de l’écran.

Test Robots.txt

En cas de problème, vous pouvez simplement modifier la syntaxe directement dans le testeur. Continuez à effectuer les tests jusqu’à ce que tout se passe bien.

Sachez que les modifications apportées dans le testeur ne sont pas enregistrées sur votre site web. Vous devrez donc veiller à copier et à coller les modifications dans votre fichier robots.txt actuel.

Il convient également de noter que cet outil n’est destiné qu’à tester les robots et les crawlers de Google. Il ne pourra pas prédire comment les autres moteurs de recherche liront votre fichier robots.txt.

Étant donné que Google contrôle 89,95 % de la part de marché mondiale des moteurs de recherche, je ne pense pas qu’il soit nécessaire d’effectuer ces tests en utilisant d’autres outils. Mais je vous laisse le soin de prendre cette décision.

Les meilleures pratiques de Robots.txt

Votre fichier robots.txt doit être nommé « robots.txt » pour pouvoir être trouvé. Il est sensible à la casse, ce qui signifie que Robots.txt ou robots.TXT ne serait pas acceptable.

Le fichier robots.txt doit toujours se trouver dans le dossier racine de votre site web, dans un répertoire de premier niveau de l’hôte.

Tout le monde peut voir votre fichier robots.txt. Il lui suffit de taper le nom de l’URL de votre site web avec /robots.txt après le domaine racine pour le voir. N’utilisez donc pas ce fichier pour être sournois ou trompeur, car il s’agit essentiellement d’une information publique.

Dans l’ensemble, je ne recommande pas d’établir des règles spécifiques pour les différents crawlers des moteurs de recherche. Je ne vois pas l’intérêt d’avoir un certain ensemble de règles pour Google, et un autre ensemble de règles pour Bing. C’est beaucoup moins déroutant si vos règles s’appliquent à tous les agents utilisateurs.

L’ajout d’une syntaxe d’interdiction à votre fichier robots.txt n’empêchera pas l’indexation de cette page. Vous devrez plutôt utiliser une balise noindex.

Les robots des moteurs de recherche sont extrêmement perfectionnés. Ils visualisent essentiellement le contenu de votre site web de la même manière qu’une personne réelle. Donc si votre site web utilise les CSS et JS pour fonctionner, vous ne devez pas bloquer ces dossiers dans votre fichier robots.txt. Ce sera une erreur majeure de référencement si les crawlers ne peuvent pas voir une version fonctionnelle de votre site web.

Si vous souhaitez que votre fichier robots.txt soit reconnu immédiatement après sa mise à jour, soumettez-le directement à Google, plutôt que d’attendre que votre site web soit exploré.

L’équité des liens ne peut pas être transmise des pages bloquées aux destinations des liens. Cela signifie que les liens sur des pages qui sont interdites seront considérés comme non suivis. Ainsi, certains liens ne seront pas indexés, sauf s’ils se trouvent sur d’autres pages accessibles par les moteurs de recherche.

Le fichier robots.txt ne remplace pas le blocage des données privées des utilisateurs et d’autres informations sensibles dans vos SERP. Comme je l’ai déjà dit, les pages interdites peuvent toujours être indexées. Vous devrez donc toujours vous assurer que ces pages sont protégées par un mot de passe et utiliser une méta directive « noindex ».

Les sitemaps doivent être placés au bas de votre fichier robots.txt.

Conclusion

C’était votre cours accéléré sur tout ce que vous devez savoir sur les fichiers robots.txt.

Je sais que beaucoup de ces informations étaient un peu techniques, mais ne vous laissez pas intimider par cela. Les concepts de base et les applications de votre robots.txt sont assez faciles à comprendre.

N’oubliez pas que ce n’est pas quelque chose que vous voudrez modifier trop souvent. Il est également extrêmement important de tout tester avant de sauvegarder les modifications. Assurez-vous de tout vérifier deux fois et trois fois.

Une seule erreur pourrait empêcher un moteur de recherche d’explorer votre site. Cela serait dévastateur pour votre position de référencement. N’apportez donc que les modifications absolument nécessaires.

Lorsqu’il est optimisé correctement, votre site web sera efficacement exploité par le budget d’exploration de Google. Cela augmente les chances que votre contenu principal soit remarqué, indexé et classé en conséquence.