Référencement (SEO)
Corriger un grand volume de contenu dupliqué - désindexation
- Maya
-
Hors Ligne Auteur du sujet
- Membre junior
-
- Thanks: 0
Corriger un grand volume de contenu dupliqué - désindexation a été créé par Maya
Posted il y a 8 ans 5 mois #16
Bonjour,
Je gère plusieurs sites de mes clients en utilisant dans la plupart des cas Joomla et Wordpress. Je suis toujours confronté avec le temps au nombre des URL dupliqués créés automatiquement par les CMS. C'est à dire plusieurs URL qui pointent vers le même contenu. Vu dans un certain cas le nombre est très élevé des URL, y a il un moyen de les corriger massivement ? ou de désindexer massivement les url dupliqués ? j'ai essayé de le faire URL par URL mais pas toujours facile et ça prend beaucoup du temps.
Merci de m'indiquer si vous avez des techniques poussées pour corriger la situation du contenu dupliqué|.
Je gère plusieurs sites de mes clients en utilisant dans la plupart des cas Joomla et Wordpress. Je suis toujours confronté avec le temps au nombre des URL dupliqués créés automatiquement par les CMS. C'est à dire plusieurs URL qui pointent vers le même contenu. Vu dans un certain cas le nombre est très élevé des URL, y a il un moyen de les corriger massivement ? ou de désindexer massivement les url dupliqués ? j'ai essayé de le faire URL par URL mais pas toujours facile et ça prend beaucoup du temps.
Merci de m'indiquer si vous avez des techniques poussées pour corriger la situation du contenu dupliqué|.
par Maya
Connexion pour participer à la conversation.
- Tony
-
Hors Ligne
- Modérateur
-
- Thanks: 0
Réponse de Tony sur le sujet Corriger un grand volume de contenu dupliqué - désindexation
Posted il y a 8 ans 5 mois #17
Bonjour,
Premièrement, je voulais vous dire qu'il existe plusieurs techniques pour corriger la situation. Parfois nous sommes obligés d'utiliser même plusieurs techniques au même temps pour remédier à cette situation qui est un souci partagé de tous les SEO et Webmastser. Je dois aussi vous dire qu'il ne faut pas essayer de tout corriger à tout prix, le fait d'avoir quelques URL dupliqués naturellement ne vous pénalise pas du tout. Mieux faire ses efforts sur les vraies choses.
Quand il s’agit de quelques pages, il est facile évidement de traiter page par page, mais quand on a des milliers de pages dupliquées, il faut penser à une technique pour traiter massivement le plus possible des pages pour gagner du temps.
Voici quelques techniques utilisées pour mettre fin au contenu dupliqué massivement:
L'utilisation de Google pour les webmastser tools (récemment nommé Search Consol)
Si vous avez par exemple des URL réécrites et que vous avez des pages indexés pointant vers les mêmes URL via des paramétrés exemple:
Monsite.com/contenuduplique.html
et
monsite.com/contenuduplique?catId=5
pointent sur le même contenu.
Vous pouvez demander à Google de ne pas indexer tout les URLs contenant le paramètre catId dans GWT dans la rubrique Paramètres d'URL. Ainsi, toutes les pages contenant ce paramètre vont disparaître graduellement des résultats de recherches. Cependant si vous avez des liens externes pointant sur ces pages à désindexer, vous allez les perdre.
Utilisation de la redirection permanente 301:
Une autre façon de faire est d'utiliser la redirection 301 via le fichier .htaccess , encore là vous pouvez le faire page par page ou suivant une expression régulière si vous avez une logique dans vos URL dupliqué.
Exemple : Si vous avez des url avec l’extension .html et sans .html qui pointent vers le même contenu : monsite/contenuduplique et monsite/contenuduplique.html qui pointe vers le même contenu, vous pouvez rediriger toutes vos pages avec .html vers les pages sans .html en ajoutant la syntaxe suivant dans votre fichier .htaccess. Ainsi toutes les pages ayant une extension .html vont disparaitre tranquillement des résultats de recherche. Vous gardez ainsi les liens externes qui pointent vers ces URL.
RewriteCond %{THE_REQUEST} \.html
RewriteRule ^(.*)\.html$ /$1 [R=301,L]
Utilisation des URL canoniques :
Il s’agit ici d’indiquer votre URL favorite avec l'élément "link"rel="canonical" aux moteurs de recherche.
Admettons que vous voulez définir blog.example.com/robes/les-robes-vertes-sont-magnifiques/ comme votre URL favorite, même si plusieurs URL permettent d'accéder à ce contenu. Vous pouvez l'indiquer aux moteurs de recherche de la manière suivante :
Balisez la page canonique et toutes les autres variantes avec un élément "link" rel="canonical".
Ajoutez un élément <link> avec l'attribut rel="canonical" à la section <head> de ces pages :
<link rel="canonical" href=" blog.example.com/dresses/green-dresses-are-awesome " />
Cela indique l'URL favorite à utiliser pour accéder à l'article sur la robe verte, afin que cette structure d'URL ait plus de chances de s'afficher dans les résultats de recherche.
Utilisez des chemins d'accès absolus plutôt que relatifs avec l'élément "link" rel="canonical".
Utilisez www.example.com/robes/vert/robeverte.html plutôt qu’utiliser /robes/vert/robeverte.html.
Encore une fois vous pouvez utiliser le fichier .htaccess pour appliquer cela sur un grand volume d’URL. Par exemple, si votre site est accessible via http et HTTPS, vous pouvez ajouter une balise canonical pour les pages dupliquées en HTTPS comme suit :
#ajouter une Canonical pour les URL en HTTPS
RewriteCond %{SERVER_PORT} 443
RewriteRule (.*) - [E=CANONICAL:$1]
Header set Link '<http://%{HTTP_HOST}e%{REQUEST_URI}e>; rel="canonical"' env=CANONICAL
Utilisation des en-têtes X-Robot-Tag pour désindexer le contenu
La balise Meta pour les robots vous permet d'utiliser une approche précise spécifique à la page pour contrôler l'indexation et l'affichage d'une page individuelle dans les résultats de recherche. La majorité des CMS nous permet de le faire sur des ages individuellement. mais voici comment l'appliquer sur un ensemble de page.
Dans ces exemples, nous demandons aux moteurs de recherche de désindexer un ensemble de pages suivant une logique:
Exemples :
Voici par exemple comment renvoyer un "noindex,follow" dans les en-tête pour les URL qui auraient le paramètre "page=" dans la chaîne de paramètres de l'URL.
Il faut noter que plusieurs personnes font des erreurs en pensant que le fichier robots.txt permet de désindexer les pages, or ce n’est pas le cas.
Le fichier robots.txt ne désindexe pas les pages, il ne fait que restreindre l'accès aux robots d'exploration. Si vos pages ont été déjà indexées dans le passé, le robots.txt ne vous aidera pas à les retirer de l'index.
Dans ce cas, il faut utiliser le tag robots Noindex : <meta name="robots" content="noindex">
Il faut également penser à enlever la restriction d'accès au niveau du robots.txt pour permettre l’exploration, En effet, pour que Googlebot puisse voir le tag Robots Noindex, il faut qu'il puisse avoir accès à la page.
Il faut ensuite attendre que Googlebot ré-explore les pages en question et qu'il voit le tag pour les désindexer. Une fois qu'elles seront désindexées, vous pourrez remettre en place la restriction au niveau du robots.txt pour les autres pages.
Référence:
Les en-têtes HTTP ou comment maîtriser son indexation sur Google
Comment désindexer des pages
Caractéristiques de l'en-tête HTTP "X-Robots-Tag" et de la balise Meta pour les robots
Premièrement, je voulais vous dire qu'il existe plusieurs techniques pour corriger la situation. Parfois nous sommes obligés d'utiliser même plusieurs techniques au même temps pour remédier à cette situation qui est un souci partagé de tous les SEO et Webmastser. Je dois aussi vous dire qu'il ne faut pas essayer de tout corriger à tout prix, le fait d'avoir quelques URL dupliqués naturellement ne vous pénalise pas du tout. Mieux faire ses efforts sur les vraies choses.
Quand il s’agit de quelques pages, il est facile évidement de traiter page par page, mais quand on a des milliers de pages dupliquées, il faut penser à une technique pour traiter massivement le plus possible des pages pour gagner du temps.
Voici quelques techniques utilisées pour mettre fin au contenu dupliqué massivement:
L'utilisation de Google pour les webmastser tools (récemment nommé Search Consol)
Si vous avez par exemple des URL réécrites et que vous avez des pages indexés pointant vers les mêmes URL via des paramétrés exemple:
Monsite.com/contenuduplique.html
et
monsite.com/contenuduplique?catId=5
pointent sur le même contenu.
Vous pouvez demander à Google de ne pas indexer tout les URLs contenant le paramètre catId dans GWT dans la rubrique Paramètres d'URL. Ainsi, toutes les pages contenant ce paramètre vont disparaître graduellement des résultats de recherches. Cependant si vous avez des liens externes pointant sur ces pages à désindexer, vous allez les perdre.
Utilisation de la redirection permanente 301:
Une autre façon de faire est d'utiliser la redirection 301 via le fichier .htaccess , encore là vous pouvez le faire page par page ou suivant une expression régulière si vous avez une logique dans vos URL dupliqué.
Exemple : Si vous avez des url avec l’extension .html et sans .html qui pointent vers le même contenu : monsite/contenuduplique et monsite/contenuduplique.html qui pointe vers le même contenu, vous pouvez rediriger toutes vos pages avec .html vers les pages sans .html en ajoutant la syntaxe suivant dans votre fichier .htaccess. Ainsi toutes les pages ayant une extension .html vont disparaitre tranquillement des résultats de recherche. Vous gardez ainsi les liens externes qui pointent vers ces URL.
RewriteCond %{THE_REQUEST} \.html
RewriteRule ^(.*)\.html$ /$1 [R=301,L]
Utilisation des URL canoniques :
Il s’agit ici d’indiquer votre URL favorite avec l'élément "link"rel="canonical" aux moteurs de recherche.
Admettons que vous voulez définir blog.example.com/robes/les-robes-vertes-sont-magnifiques/ comme votre URL favorite, même si plusieurs URL permettent d'accéder à ce contenu. Vous pouvez l'indiquer aux moteurs de recherche de la manière suivante :
Balisez la page canonique et toutes les autres variantes avec un élément "link" rel="canonical".
Ajoutez un élément <link> avec l'attribut rel="canonical" à la section <head> de ces pages :
<link rel="canonical" href=" blog.example.com/dresses/green-dresses-are-awesome " />
Cela indique l'URL favorite à utiliser pour accéder à l'article sur la robe verte, afin que cette structure d'URL ait plus de chances de s'afficher dans les résultats de recherche.
Utilisez des chemins d'accès absolus plutôt que relatifs avec l'élément "link" rel="canonical".
Utilisez www.example.com/robes/vert/robeverte.html plutôt qu’utiliser /robes/vert/robeverte.html.
Encore une fois vous pouvez utiliser le fichier .htaccess pour appliquer cela sur un grand volume d’URL. Par exemple, si votre site est accessible via http et HTTPS, vous pouvez ajouter une balise canonical pour les pages dupliquées en HTTPS comme suit :
#ajouter une Canonical pour les URL en HTTPS
RewriteCond %{SERVER_PORT} 443
RewriteRule (.*) - [E=CANONICAL:$1]
Header set Link '<http://%{HTTP_HOST}e%{REQUEST_URI}e>; rel="canonical"' env=CANONICAL
Utilisation des en-têtes X-Robot-Tag pour désindexer le contenu
La balise Meta pour les robots vous permet d'utiliser une approche précise spécifique à la page pour contrôler l'indexation et l'affichage d'une page individuelle dans les résultats de recherche. La majorité des CMS nous permet de le faire sur des ages individuellement. mais voici comment l'appliquer sur un ensemble de page.
Dans ces exemples, nous demandons aux moteurs de recherche de désindexer un ensemble de pages suivant une logique:
Exemples :
Voici par exemple comment renvoyer un "noindex,follow" dans les en-tête pour les URL qui auraient le paramètre "page=" dans la chaîne de paramètres de l'URL.
Code:
#Noindex et follow pour les pages 2,3,4...
RewriteCond %{QUERY_STRING} page=.*
RewriteRule (.*) - [E=NOINDEXFOLLOW]
Header set X-Robots-Tag "noindex, follow" env=NOINDEXFOLLOW
Code:
#Bloquer l'indexation des fichiers Word (extension .doc et .docx)
<Files ~ "\.(doc|docx)$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Code:
# empêcher l’indexation des URL contenant un paramètre de tri ?order=
RewriteCond %{QUERY_STRING} ^order=(.*)$ [NC]
RewriteRule . - [E=headernoindex]
Header set X-Robots-Tag "noindex, nofollow" env=headernoindex
Code:
#Demander aux moteurs de desindexer le repertoire « perso »
RewriteCond %{REQUEST_URI} ^/perso/.*$
RewriteRule . - [E=headernoindex]
Header set X-Robots-Tag "noindex" env=headernoindex
Il faut noter que plusieurs personnes font des erreurs en pensant que le fichier robots.txt permet de désindexer les pages, or ce n’est pas le cas.
Le fichier robots.txt ne désindexe pas les pages, il ne fait que restreindre l'accès aux robots d'exploration. Si vos pages ont été déjà indexées dans le passé, le robots.txt ne vous aidera pas à les retirer de l'index.
Dans ce cas, il faut utiliser le tag robots Noindex : <meta name="robots" content="noindex">
Il faut également penser à enlever la restriction d'accès au niveau du robots.txt pour permettre l’exploration, En effet, pour que Googlebot puisse voir le tag Robots Noindex, il faut qu'il puisse avoir accès à la page.
Il faut ensuite attendre que Googlebot ré-explore les pages en question et qu'il voit le tag pour les désindexer. Une fois qu'elles seront désindexées, vous pourrez remettre en place la restriction au niveau du robots.txt pour les autres pages.
Référence:
Les en-têtes HTTP ou comment maîtriser son indexation sur Google
Comment désindexer des pages
Caractéristiques de l'en-tête HTTP "X-Robots-Tag" et de la balise Meta pour les robots
Last Edit:il y a 8 ans 5 mois
par Tony
Dernière édition: il y a 8 ans 5 mois par Tony.
Connexion pour participer à la conversation.
- Yves B.
-
Hors Ligne
- Nouveau membre
-
- Thanks: 0
Réponse de Yves B. sur le sujet Corriger un grand volume de contenu dupliqué - désindexation
Posted il y a 8 ans 4 mois #21
Merci pour cet article concernant le contenu dupliqué en grand volume, je me suis toujours demandé comment faire pour éliminer les "duplicate content" sur des sites ayant des milliers voire des millions de pages. mais je pense avoir avoir fait ca, il faut être patient et attendre quelques mois avant que google absorbe les changement et supprime le contenu dupliqué.
par Yves B.
Connexion pour participer à la conversation.
Temps de génération de la page : 0.312 secondes