Tutoriels SEO: Indexé le blocage Blogger par robots.txt
L’indexation est l’une des étapes les plus importants pour augmenter la visibilité d’un blog sur les moteurs de recherche. Pourtant, de nombreux blogueurs sur Blogger se retrouvent face à une situation déroutante : leurs articles s’affichent dans Google même lorsque le fichier robots.txt est censé bloquer l’accès. Comment est-ce possible ? S’agit-il d’une erreur, d’un mauvais paramétrage ou d’un fonctionnement normal des moteurs de recherche
Dans cet article, nous allons analyser en détail les causes réelles de l’indexation malgré un robots.txt bloqué sur Blogger, puis explorer les solutions efficaces pour maîtriser totalement le comportement des robots d’exploration. Si tu souhaites mieux contrôler l’indexation de ton blog, améliorer ta visibilité SEO et éviter les problèmes liés aux paramètres de confidentialité, tu es au bon endroit.
Sur Blogger, il arrive parfois qu’un article soit indexé par Google, même lorsque le fichier robots.txt semble pourtant bloquer l’exploration. Ce phénomène surprend de nombreux blogueurs : comment un contenu peut-il apparaître dans les résultats de recherche alors qu’il est supposé être inaccessible aux robots ?
Lire également : Les balises title et meta description pour Blogger
Passons maintenant au sujet de la discussion
Lorsque tu gères un blog sur Blogger, il peut arriver qu’une page soit indexée par Google alors même qu’elle était bloquée dans le fichier robots.txt, ou qu’elle comportait une balise noindex. Ce problème est fréquent, surtout chez les blogueurs qui modifient souvent les paramètres SEO, les thèmes ou les URL.
En réalité, plusieurs facteurs techniques propres à Blogger, à Google Search et au fonctionnement des robots d’exploration peuvent expliquer cette indexation inattendue. Mauvaise configuration, données déjà connues de Google, exclusions partielles… les raisons sont multiples.
Voici les raisons principales et les solutions efficaces pour corriger ce problème définitivement.
Cause de l'avertissement « Indexé malgré le blocage par robots.txt »
Par ailleurs Blogger utilise toujours le fichier robots.txt pour empêcher l'indexation de certaines pages par les moteurs de recherche.
Dissallow: /search
- Exemple de page : d'étiquettes https://www.doniblog.com/search/label/Blogging w
- Ex Exemple d'URL de page de recherche : https://www.doniblog.com/search?q=Tutorielsw
Alors, comment résoudre ce problème ?
1 Première voie
Deuxième voie
La deuxième méthode consiste à utiliser les balises d'en-tête robot pour indiquer à Google de ne pas indexer les pages d'étiquettes et de recherche.
Actuellement, Google prends toujours en charge les balises d'en-tête robot ; autrement dit, les balises d'en-tête robot ne sont pas ignorées comme les fichiers robots.txt.
Pour installer cette balise d'en-tête robot, cela peut/devrait se faire automatiquement en utilisant la fonctionnalité « Balise d'en-tête robot personnalisée » de Blogger.
Lorsque mes lecteurs utilisent des modèles de template premium, me posent des questions à ce sujet, je leur suggère généralement de configurer le paramètre « Balise d'en-tête robots personnalisée ».
Mais pour une raison inconnue, la dernière fois que j'ai vérifié, la fonctionnalité « Balises d'en-tête robots personnalisées » de Blogger ne fonctionnait plus correctement. Désormais, la balise d'en-tête robots noindex n'apparaît plus correctement sur les pages d'archives, d'étiquettes et de résultats de recherche.
Cette méthode ne fonctionnant plus, une alternative consiste à installer directement la balise meta robot dans le modèle.
Comment tu fait, mon ami ?
Copiez simplement le code HTML ci-dessous.
<!-- Meta Robot --><b:if cond="data:view.isSearch or data:view.isArchive">
<meta content='noindex, noarchive' name='robots'/>
</b:if> Placez le code juste en dessous du code <head> balise du modèle.
L'étape suivante consiste également à supprimer la commande Disallow: /search dans le fichier robots.txt.
Car si la commande Disallow: /search n'est pas supprimée, les robots de Google ne peuvent pas lire les commandes de la balise méta robot précédemment installée.
Pour le supprimer, veuillez vous rendre sur le tableau de bord Blogger→ Paramètres →Exploration et indexation. Activer La fonctionnalité robots.txt personnalisée.
Cliquez sur le fichier robots.txt personnalisée, puis saisissez ce code :
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /
Sitemap: https://www.doniblog.com/sitemap.xml
Une fois vos modifications effectuées, n'oubliez pas de cliquer sur le bouton « Valider les corrections » dans le tableau de bord de la Search Console. Attendez ensuite que la notification « Indexé malgré le blocage par robots.txt » disparaisse.
Avertissement
Outre l'avertissement « Indexé malgré le blocage par robots.txt », il est presque certain que d'autres avertissements apparaîtront également dans Google Search Console.
Les avertissements autres que « Indexé malgré le blocage par robots.txt » sont généralement anormaux et ne nécessitent aucune intervention. Il n'y a donc pas lieu de les ignorer. En réalité, il est même préférable de ne pas y toucher.
Voici quelques uns des avertissement les plus répandus :
Anomalie rampante
Comment surmonter ça , mon ami ?
Vous pouvez simplement laisser les choses en l'état où, si cela vous dérange. Vous pouvez rédiger l'URL de l'article erroné vers un autre article en utilisant la fonction de redirection spéciale de Blogger.
Vous trouverez ici des informations sur l'utilisation de la fonction de redirection spéciale : Comment optimiser son blog pour le référencement (SEO).
Explorer - Actuellement non indexé
Cet avertissement apparaît généralement lorsqu'une URL de flux RSS n'est pas affichée dans les résultats de recherche.
Comment surmonter ça, mon pote
Vérifiez la liste des URL qui reçoivent cet avertissement. Si la plupart sont des URL de flux RSS, ne les modifiez pas.
Voici un exemple d'URL de flux RSS :
https://www.doniblog.com/feeds/posts/default
Page alternative avec balise canonique correcte
Cet avertissement apparaît car l'URL de la version mobile comporte le paramètre ?m=1 à la fin de l'URL.
Lorsque vous accédez à un blog Blogger via un appareil mobile le paramètre ?m=1 sera automatiquement ajouté à la fin de l'URL.
Sur Blogger, il ajoute automatiquement une balise canonique aux pages/articles avec le paramètre ?m=1.
Cette balise canonique indique essentiellement aux moteurs de recherche que l'URL avec la balise ?m=1 et celle sans cette balise correspondent à la même page/article, évitant ainsi le contenu dupliqué.
Comment surmonter ça, mon pote ?
Ça c'est normal, n'y toucher pas
Autres avertissements
Conclusion
Indexation malgré robots.txt bloqué sur Blogger
Q1 : Qu’est-ce que le fichier robots.txt sur Blogger ?
Q2 : Pourquoi mon contenu est-il indexé malgré un robots.txt bloqué ?
- Google a déjà indexé le contenu avant le blocage.
- Les pages sont accessibles via d’autres liens ou sites.
- Le fichier robots.txt bloque l’exploration mais n’empêche pas l’indexation si Google a d’autres sources d’information.
Q3 : Comment empêcher complètement l’indexation sur Blogger ?
- Utilisez la balise meta noindex sur les pages que vous voulez protéger.
- Vérifiez que le fichier robots.txt est correctement configuré.
- Supprimez les liens internes ou externes pointant vers ces pages.
.png)
