Erreurs Google Search Console : comment les identifier et les corriger

Google Search Console est un outil très utilisé par les professionnels du référencement. Il permet de comprendre comment Google voit un site web en suivant trois étapes : l’exploration des pages, l’indexation et le classement dans les résultats de recherche.
Dans cet article, nous nous concentrons uniquement sur l’exploration et l’indexation.
L’outil signale dans le rapport Indexation des pages les erreurs qui empêchent certaines pages d’apparaître dans les résultats. Nous allons donc les passer en revue et expliquer simplement chaque problème, avec des solutions concrètes pour le corriger.
Erreur serveur de type 5xx
Lorsqu’une erreur serveur apparaît dans Google Search Console, cela signifie que Googlebot n’a pas réussi à accéder à une page. Le robot de Google a bien tenté de la visiter, mais quelque chose l’a bloqué côté serveur. Résultat, la page ne peut ni être explorée correctement ni être prise en compte pour le référencement.
Il existe plusieurs types d’erreurs serveur, les plus courantes étant les suivantes :
L’erreur 500 correspond à une erreur interne du serveur. Elle indique qu’un problème technique empêche le serveur de traiter la demande. Cela peut venir d’un bug dans le CMS, d’un mauvais script PHP ou d’un souci plus global sur l’hébergement.
L’erreur 502 signifie que le serveur reçoit une réponse incorrecte d’un autre service. En clair, une partie du système ne répond pas comme prévu. Ce problème est souvent lié au CMS, notamment sur des sites WordPress mal configurés ou surchargés.
L’erreur 503 indique que le service est momentanément indisponible. Le serveur peut être en maintenance, trop sollicité ou temporairement hors ligne. Googlebot attend un certain temps, mais s’il ne reçoit aucune réponse, il abandonne et signale une erreur 5xx.
Pour corriger ce type de problème et permettre à Google de parcourir le site normalement, la première étape consiste à identifier précisément le type d’erreur. Il faut savoir s’il s’agit d’une 500, d’une 502 ou d’une 503. Une équipe technique ou un hébergeur peut généralement aider à poser ce diagnostic et à corriger la cause du blocage.
Erreur de redirection
Google rencontre parfois des problèmes de redirection sur un site. C’est l’une des erreurs les plus fréquentes dans Google Search Console. Bonne nouvelle, ce sont souvent les plus simples à corriger.
Il existe plusieurs types d’erreurs liées aux redirections :
Les boucles de redirection apparaissent lorsque la redirection revient à l’URL de départ. La page renvoie vers une autre URL, puis la chaîne finit par revenir à l’URL d’origine. Google suit alors la redirection en boucle et n’arrive jamais à atteindre une page finale.
Les chaînes de redirection trop longues posent aussi problème. Googlebot ne patiente pas indéfiniment. Si plusieurs redirections s’enchaînent et que l’URL finale met trop de temps à être atteinte, le robot abandonne et signale une erreur.
Les URL cassées ou vides dans une chaîne de redirection bloquent également Google. Si une seule URL ne fonctionne pas, que ce soit une page inexistante ou une URL vide, Googlebot s’arrête immédiatement. Il suffit d’un maillon défaillant pour provoquer l’erreur.
Les URL trop longues peuvent aussi être à l’origine du problème. Une adresse web doit respecter une longueur maximale. Si cette limite est dépassée, Googlebot ne peut pas explorer la page. Il est donc toujours préférable de garder des URL courtes et lisibles.
Pour corriger une erreur de redirection, il faut identifier deux éléments précis. L’URL de départ et l’URL finale. En pratique, cela revient à repérer la page que vous souhaitez rediriger et celle vers laquelle elle doit mener. Des outils comme Screaming Frog sont très utiles pour cela. Ils permettent de visualiser l’ensemble du chemin de redirection et de le nettoyer. L’idéal reste une seule redirection directe vers la page finale, sans détour inutile.
URL bloquée par le fichier robots.txt
Ce message indique que Googlebot n’a pas accès à une ou plusieurs pages du site à cause du fichier robots.txt. Autrement dit, ce fichier empêche volontairement ou non Google d’explorer certaines URL.
Dans la majorité des cas, deux raisons expliquent ce blocage. Le fichier robots.txt peut être mal configuré. Une règle a pu être ajoutée par erreur, notamment via un plugin SEO sur WordPress. Il arrive aussi qu’une directive de type disallow bloque toute une section du site, y compris des pages importantes.
Pour corriger cela, il faut récupérer le fichier robots.txt et rechercher l’URL concernée. Si l’adresse complète apparaît, le problème est évident. Si ce n’est pas le cas, il faut vérifier les débuts d’URL, car le blocage peut concerner un dossier entier. Une fois la règle identifiée, il suffit de la supprimer puis de remettre le fichier en ligne.
URL marquée en noindex
Cette erreur signifie que Google a repéré une page qui semble importante. Elle peut apparaître dans le sitemap ou être liée depuis d’autres pages du site. Pourtant, Google ne l’indexe pas.
La cause est presque toujours la même. La page contient une instruction qui empêche son indexation. Cela peut venir d’une balise noindex dans le code HTML ou d’un en-tête HTTP X-Robots-Tag configuré en noindex.
Pour régler le problème, il faut consulter le code source de la page et repérer cette instruction. Une fois supprimée, il suffit de demander une nouvelle indexation via Google Search Console. La page pourra alors être prise en compte normalement par Google.
Soft 404
L’erreur soft 404 est souvent déroutante. Pour l’internaute, la page ressemble à une page inexistante. Elle affiche un message indiquant que le contenu n’est pas disponible. Pourtant, côté technique, le serveur renvoie un code 200, ce qui signifie que la page fonctionne.
Googlebot voit bien que l’URL répond correctement. Mais en analysant le contenu affiché, il comprend que la page n’apporte aucune valeur. Résultat, Google refuse de l’indexer et signale une erreur.
Ce problème apparaît très souvent sur des sites utilisant un CMS comme WordPress. Par exemple, lorsque des étiquettes sont créées, WordPress génère automatiquement des URL dédiées. Ces pages peuvent se retrouver dans le sitemap alors qu’elles ne contiennent aucun contenu réel. Google les explore, constate qu’elles sont vides et les considère comme inutiles.
Pour corriger cela, il faut d’abord identifier pourquoi une page sans contenu est affichée aux utilisateurs. Dans le cas des étiquettes WordPress, la solution est simple. Soit l’URL est supprimée complètement, soit un vrai contenu est ajouté à la page. Il faut aussi retirer toute mention laissant penser qu’il s’agit d’une page introuvable.
Lire aussi : Google My Business : le guide complet
Bloquée en raison d’une requête non autorisée 401
Cette erreur signifie que Googlebot n’a pas l’autorisation d’accéder à la page. Il ne peut donc ni l’explorer, ni l’indexer, ni la positionner. Ce blocage peut survenir même si les utilisateurs, eux, accèdent à la page sans problème.
Dans la majorité des cas, le site empêche Googlebot d’accéder aux pages. Cela vient souvent d’un pare-feu ou d’un système de sécurité interne. Le même type de blocage peut apparaître lors d’un audit du site avec un outil de crawl, si celui-ci n’est pas autorisé.
Pour résoudre ce problème, il faut comprendre pourquoi Googlebot est bloqué. Une vérification des réglages du pare-feu permet généralement d’identifier et de lever cette restriction.
Bloquée en raison d’une interdiction d’accès (403)
Une erreur 403 indique que le serveur a bien compris la demande et sait où se trouve la page. En revanche, il refuse l’accès.
Lorsqu’il explore un site, Googlebot ne fournit aucune information d’identification. Si l’accès est restreint ou mal configuré, le serveur peut donc refuser la requête.
Plusieurs causes peuvent expliquer ce type d’erreur :
Un fichier .htaccess mal configuré peut bloquer l’accès. Dans ce cas, il est conseillé de le désactiver et d’en créer un nouveau.
Un plugin WordPress défectueux peut également être en cause. Il faut alors désactiver les extensions une par une jusqu’à identifier celle qui provoque le blocage, puis la réinstaller ou la mettre à jour.
Une mauvaise adresse IP associée au nom de domaine peut aussi entraîner une erreur 403. Il est important de vérifier l’enregistrement A auprès du gestionnaire de domaine.
Enfin, si aucune de ces pistes ne fonctionne, une infection par un logiciel malveillant est possible. Un scan complet du site permet alors de détecter le problème.
Page introuvable 404
Lorsqu’une erreur 404 apparaît dans Google Search Console, cela signifie que Googlebot a tenté d’explorer une URL qui n’existe plus.
Contrairement au soft 404, ce type d’erreur est généralement définitif. La page a été supprimée, déplacée ou modifiée sans qu’une redirection ait été mise en place.
La première étape consiste à analyser le site et le sitemap pour repérer les anciennes URL encore présentes. Si les pages ont réellement été supprimées, il faut les retirer du sitemap.
Si l’erreur provient d’une ancienne URL toujours utile, une redirection doit être créée vers la nouvelle page correspondante. Cela peut se faire manuellement ou à l’aide d’un plugin SEO comme Yoast ou RankMath sur WordPress. Une fois la correction appliquée, la page peut être soumise à nouveau dans Google Search Console.
Bloquée en raison d’un autre problème de type 4xx
Il arrive que Googlebot rencontre une erreur de type 4xx sans parvenir à identifier précisément laquelle. Dans ce cas, Google Search Console affiche le message indiquant que l’URL est bloquée pour une autre raison 4xx. La première chose à faire consiste à ouvrir l’URL manuellement afin de voir quel code est réellement renvoyé.
Une erreur 404 indique que Google tente d’explorer une page qui n’existe plus.
Une erreur 400 apparaît lorsque le serveur ne parvient pas à traiter la requête. Cela peut venir d’un site temporairement en maintenance ou d’un problème dans le code de la page.
Une erreur 403 signifie que l’accès à la page est restreint. La page peut être protégée par un mot de passe ou réservée aux abonnés.
Une fois le code exact identifié, il devient plus simple de corriger le problème.
Dans le cas d’une erreur 404, il faut soit mettre en place une redirection, soit supprimer l’URL du site et du sitemap.
Pour une erreur 400, il est nécessaire de rechercher et corriger les problèmes techniques présents dans le code, à condition que le site ne soit pas volontairement hors ligne.
Si l’erreur est une 403, l’accès doit être ouvert à Googlebot. Cela implique souvent de désactiver un mur payant ou une protection bloquant l’exploration.
Bloquée par l’outil de suppression de pages
C’est l’un des problèmes les plus simples à régler. Si une URL est indiquée comme bloquée par l’outil de suppression, cela signifie qu’elle a été retirée volontairement via Google Search Console à un moment donné.
Cet outil permet de masquer temporairement des pages des résultats de recherche. Son utilisation est toujours manuelle. Si une URL apparaît ici, c’est qu’elle a été ajoutée intentionnellement par quelqu’un.
Si certaines pages n’ont plus besoin d’être bloquées, il suffit de les retirer de l’outil de suppression, puis de demander à Google de les explorer à nouveau.
Explorée mais non indexée
Ce message est souvent frustrant. Googlebot a bien exploré la page, sans rencontrer de problème technique, mais a choisi de ne pas l’ajouter à son index. La page n’apparaît donc pas dans les résultats de recherche.
Dans la plupart des cas, Google estime que la page n’apporte pas encore assez de valeur.
Plusieurs actions peuvent aider à améliorer la situation :
Ajouter davantage de liens vers la page est une bonne première étape. Les liens servent d’indicateur de confiance pour Google. Les liens externes sont généralement plus puissants, mais les liens internes restent très utiles.
Il est aussi important d’évaluer le contenu. Une page trop courte ou peu qualitative a peu de chances d’être indexée. Enrichir le texte et apporter des informations utiles peut suffire à débloquer la situation.
Enfin, le contenu doit correspondre aux attentes des internautes. Si la page ne répond pas clairement à l’intention de recherche visée, Google peut choisir de l’ignorer. Adapter le contenu à cette intention améliore fortement les chances d’indexation.
Détectée mais non indexée
Ce message indique que Google connaît l’existence de l’URL, mais n’a pas encore exploré ni indexé la page.
Plusieurs raisons peuvent expliquer cela. Il peut s’agir d’un problème technique, d’un budget de crawl limité, d’une page volontairement exclue, d’une structure de site peu claire ou simplement d’un choix de Google pour économiser ses ressources.
Pour encourager l’exploration, plusieurs solutions existent :
Il est possible de demander manuellement l’indexation de la page directement depuis Google Search Console. Cela se fait en recherchant l’URL dans la barre supérieure, puis en envoyant une demande d’indexation.
Il est aussi conseillé de vérifier la capacité du serveur à supporter les visites de Googlebot. Les journaux du serveur permettent de voir si des blocages ou des ralentissements sont présents.
Enfin, il faut s’assurer que la page figure bien dans le sitemap. Si ce n’est pas le cas et que la page doit être indexée, son ajout au sitemap facilite son exploration par Google.
Autre page avec balise canonique correcte
Ce message indique que Google a détecté une page dupliquée, mais que la balise canonique est bien configurée. Dans ce cas précis, il ne s’agit pas vraiment d’une erreur si la page n’a pas vocation à apparaître dans les résultats de recherche.
En revanche, si cette page doit être indexée, quelques ajustements sont nécessaires. La première étape consiste à retirer la balise canonique, puis à demander à Google de réexplorer l’URL. Parfois, cela suffit à régler le problème. Dans d’autres cas, Google peut afficher un autre message lié au contenu dupliqué.
Si la page n’est toujours pas indexée après la suppression de la canonique, il faut retravailler son contenu. L’objectif est de la rendre suffisamment différente pour que Google ne la considère plus comme un doublon. Cela peut passer par l’ajout de texte, de vidéos ou par un meilleur alignement avec l’intention de recherche.
Page dupliquée sans canonique définie par l’utilisateur
Ce message signifie que Google a trouvé plusieurs pages similaires sur le site, sans indication claire sur celle qui doit être indexée. Ce cas est fréquent sur les sites volumineux, avec beaucoup d’URL proches les unes des autres.
La première chose à faire est de déterminer quelle page doit apparaître dans l’index de Google. Cette page doit contenir une balise canonique pointant vers elle-même.
Ensuite, toutes les pages dupliquées doivent inclure une balise canonique pointant vers la page principale. Ces URL peuvent être identifiées directement dans Google Search Console ou à l’aide d’outils d’analyse.
Une fois les balises mises en place, il est conseillé de demander une nouvelle exploration des pages afin d’accélérer la prise en compte par Google.
Dupliquée, Google a choisi une autre page canonique que l’utilisateur
Ce message apparaît lorsque Google détecte du contenu dupliqué et choisit lui-même la page qu’il juge la plus pertinente à indexer.
Si la page sélectionnée par Google est la bonne, aucune action urgente n’est nécessaire. Il reste toutefois recommandé d’ajouter une balise canonique pointant vers elle-même pour éviter que ce message ne réapparaisse.
Si Google a indexé la mauvaise page, il faut reprendre la configuration des balises canoniques. La bonne URL doit contenir une canonique auto-référente, et toutes les pages similaires doivent pointer vers celle-ci. Une fois la correction effectuée, une nouvelle demande d’exploration permet de gagner du temps.
Indexée mais bloquée par le fichier robots.txt
Ce message indique que Google a réussi à indexer une page alors même que son exploration est bloquée par le fichier robots.txt.
Dans ce cas, la page peut apparaître dans les résultats de recherche, mais sans description. Google ne peut pas afficher la meta description puisqu’il n’a pas l’autorisation d’explorer le contenu.
Avant toute chose, il faut décider si la page doit être indexée ou non.
Si la page ne doit pas apparaître dans Google, l’ajout d’une balise noindex est une solution. Attention toutefois, Google doit pouvoir explorer la page pour voir cette balise. D’autres options existent comme supprimer les liens internes, protéger la page par mot de passe ou la supprimer complètement.
Si la page doit être indexée, il faut identifier la raison du blocage. Cela peut venir d’une règle spécifique ou d’un paramétrage global du fichier robots.txt. Une fois l’obstacle levé, Google pourra explorer la page correctement.
Exclue par la balise « noindex »
Ce statut apparaît lorsque Googlebot explore une page contenant une balise noindex. Google respecte alors cette consigne et n’affiche pas la page dans ses résultats, ou la retire rapidement si elle y figurait déjà.
Ce comportement est normal et volontaire. Tant que la balise noindex est présente, la page restera exclue de l’index.
Conclusion
Google Search Console est un outil indispensable pour comprendre comment Google explore et indexe votre site. Le rapport d’indexation permet de détecter rapidement les problèmes qui peuvent bloquer certaines pages et de prendre des mesures concrètes pour les corriger. Surveiller régulièrement ces alertes aide à maintenir votre site visible et performant dans les résultats de recherche.
