Physical Address

304 North Cardinal St.
Dorchester Center, MA 02124

Дублированный контент: почему это происходит и как это исправить

Хотите узнать, что такое дублированный контент и как он может навредить вашему SEO? 

Дублированный контент является источником постоянного беспокойства для многих владельцев сайтов.

Прочитайте почти все об этом, и вы придете к выводу, что ваш сайт — это бомба замедленного действия, связанная с проблемами дублирования контента. Штраф Google наступит всего через несколько дней.

К счастью, это не так, но дублированный контент все равно может вызвать проблемы с SEO. А поскольку 25–30%  Интернета представляет собой дублированный контент, полезно знать, как избежать и исправить такие проблемы.

Что такое дублированный контент?

Дублированный контент — это точный или почти повторяющийся контент, который появляется в Интернете более чем в одном месте. Это может произойти на одном веб-сайте или в междоменном режиме.

Например, если бы я повторно опубликовал этот пост в , это было бы дублированием контента. Это также было бы верно, если бы я переиздал это на другом сайте.ahrefs.com/blog/duplicate-content-copy/

Google заявляет  , что большая часть дублированного контента не является обманчивым по своему происхождению.

Почему дублированный контент вреден для SEO?

Дублированный контент может нанести вред вашей эффективности SEO по нескольким причинам.

  1. Нежелательные или недружественные URL-адреса в результатах поиска;
  2. Размывание обратных ссылок;
  3. Сжигает краулинговый бюджет;
  4. Сокращённый или синдицированный контент, превосходящий ваш рейтинг.

Давайте изучим их более подробно.

1. Нежелательные или недружественные URL-адреса в результатах поиска.

Представьте, что одна и та же страница доступна по трем разным URL-адресам:

  1. домен.com/страница/
  2. домен.com/page/?utm_content=buffer&utm_medium=social
  3. домен.com/категория/страница/

Первое должно появиться в результатах поиска, но Google может ошибиться. Если это произойдет, его место может занять нежелательный URL-адрес.

Поскольку люди могут быть менее склонны нажимать на недружественный URL-адрес, вы можете получать меньше органического трафика.

2. Размывание обратных ссылок

Если один и тот же контент доступен по нескольким URL-адресам, каждый из этих URL-адресов может привлекать обратные ссылки. Это приводит к разделению «ссылочного капитала» между URL-адресами.

Чтобы продемонстрировать это на практике, взгляните на эти две страницы наuffer.com :

https://buffer.com/ библиотека /social-media-manager-checklisthttps://buffer.com/ resources /social-media-manager-checklist

Эти страницы являются почти точными копиями. И у них 106 и 144 ссылающихся домена (ссылки с уникальных сайтов) соответственно.

URL-адрес буфера 1, ссылающийся на домены
URL-адрес буфера 2 ссылающихся доменов

Прежде чем паниковать, знайте, что это не всегда проблема из-за того, как Google обрабатывает дублированный контент.

Проще говоря, когда они обнаруживают дублированный контент, они группируют URL-адреса в один кластер . Затем они «выбирают тот URL-адрес, который, по их мнению, является «лучшим» для представления кластера в результатах поиска» и «объединяют свойства URL-адресов в кластере, такие как популярность ссылок , с репрезентативным URL-адресом». Этот процесс известен как канонизация .

Таким образом, в приведенном выше случае Google должен  показывать только один из URL-адресов в обычном поиске и приписывать все ссылающиеся домены в кластере (106+144) этому URL-адресу.

Но этого не происходит, поскольку мы видим, что оба URL-адреса ранжируются в Google по схожим ключевым словам.

буфер результатов Google 1
буфер результатов Google 2

В этом случае Google, вероятно, не консолидирует «капитал ссылок» на одном URL.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ

Мы не можем быть уверены, как Google видит эти два URL-адреса, поскольку у нас нет доступа к учетной записи Buffer в Google Search Console. Возможно, они видят оба этих URL-адреса как дубликаты, и один из них скоро исчезнет из органического поиска.

3. Сжигает краулинговый бюджет

Google находит новый контент на вашем веб-сайте посредством сканирования, что означает, что они переходят по ссылкам с существующих страниц на новые страницы. Они также время от времени повторно сканируют известные им страницы, чтобы увидеть, не изменилось ли что-нибудь.

Дублирование контента только создает для них больше работы. Это может повлиять на скорость и частоту сканирования ваших новых или обновленных страниц.

Это плохо, поскольку может привести к задержкам при индексировании новых страниц и переиндексации обновленных страниц.

ПРИМЕЧАНИЕ. Поскольку «ограничение скорости сканирования» Google выше для более отзывчивых веб-сайтов, это представляет большую проблему для медленных веб-сайтов с меньшей пропускной способностью. Их системы также будут реже сканировать повторяющиеся URL-адреса .

4. Удаленный контент превосходит ваш рейтинг

Иногда вы можете разрешить другому веб-сайту повторно публиковать ваш контент. Это известно как синдикация. В других случаях сайты могут очистить ваш контент и повторно опубликовать его без разрешения.

Оба этих сценария приводят к дублированию контента в нескольких доменах, но обычно не вызывают проблем. Проблемы возникают только тогда, когда скопированный или переизданный контент начинает превосходить оригинал на вашем сайте.

Хорошая новость в том, что это редкое явление, но оно может случиться.

Есть ли у Google штраф за дублирование контента?

Google неоднократно заявлял, что у них нет штрафа за дублированный контент.

У нас нет штрафа за дублирование контента. Дело не в том, что мы бы понизили рейтинг сайта из-за большого количества дублированного контента. 

Джон Мюллер

Джон Мюллер, Аналитик тенденций для веб-мастеров Google

Давайте забудем об этом раз и навсегда, ребята: не существует такой вещи, как штраф за дублирование контента. 

Сьюзан Москва

Сьюзен Москва, Бывший аналитик тенденций Google для веб-мастеров

ДЫК В Google нет штрафа за дублирование контента. 

Гэри Иллис

Гэри Иллис, Аналитик тенденций для веб-мастеров Google

Но это не совсем так. Если ваш дублированный контент является случайным, а не результатом преднамеренного манипулирования результатами поиска или рассылки спама, вы не будете наказаны. Если да, то возможно.

Гугл подтверждает это здесь :

В тех редких случаях, когда Google считает, что дублированный контент может быть показан с целью манипулировать нашим рейтингом и обмануть наших пользователей, мы также вносим соответствующие корректировки в индексацию и рейтинг соответствующих сайтов. В результате рейтинг сайта может пострадать или сайт может быть полностью удален из индекса Google, и в этом случае он больше не будет отображаться в результатах поиска.

Вопрос в том, что считается «намерением манипулировать нашими рейтингами и обманывать наших пользователей»?

У Google есть много информации по этому поводу здесь . Но в основном это такие вещи:

  • Намеренное создание нескольких страниц, поддоменов или доменов с большим количеством дублированного контента.
  • Публикация большого количества скопированного контента
  • Публикация партнёрского контента, взятого с Amazon или других сайтов (без дополнительной ценности)

Однако, как обсуждалось выше, дублированный контент все равно может навредить SEO – даже без штрафов.

Распространенные причины дублирования контента

Не существует единой причины дублирования контента. Есть много.

Фасетированная/фильтрованная навигация

Фасетная навигация – это место, где пользователи могут фильтровать и сортировать элементы на странице. Сайты электронной коммерции часто используют его.

При таком типе навигации параметры добавляются в конец URL-адреса.

URL-адрес фасетной навигации

Поскольку обычно существует множество комбинаций этих фильтров, фасетная навигация часто приводит к большому количеству дублированного или почти дублированного контента.

Взгляните, например, на эти две страницы:

URL-адреса уникальны, но содержание практически идентично.

Кроме того, порядок параметров часто не имеет значения. Например, одна и та же страница доступна по обоим этим URL-адресам:

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Фасетная навигация — сложная штука. Если вы подозреваете, что это является причиной проблем с дублированием контента, просто прочитайте это .

Параметры отслеживания

Параметризованные URL-адреса также используются для отслеживания. Например, вы можете использовать параметры UTM для отслеживания посещений из кампании информационного бюллетеня в Google Analytics:

Пример: example.com/page?utm_source=newsletter .КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Канонизируйте  параметризованные URL-адреса в версии, оптимизированные для SEO, без параметров отслеживания.

Идентификаторы сеансов

Идентификаторы сеансов хранят информацию о ваших посетителях. Обычно они добавляют к URL-адресу длинную строку, например:

Пример: example.com?sessionId=jow8082345hnfn9234 .КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Канонизировать  URL-адреса до оптимизированных для SEO версий.

HTTPS против HTTP и без www против www

Большинство веб-сайтов доступны в одном из этих четырех вариантов:

  • https://www. example.com (HTTPS, www)
  • https://example.com (HTTPS, без www)
  • http://www. example.com (HTTP, www)
  • http://example.com (HTTP, без www)

Если вы используете HTTPS, это будет один из первых двух. Будет ли это версия с www или без www, решать вам.

Однако, если вы неправильно настроите свой сервер, ваш сайт будет доступен в двух или более из этих вариантов. Это нехорошо и может привести к проблемам с дублированием контента.КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Используйте перенаправления  , чтобы ваш сайт был доступен только в одном месте.

URL-адреса с учетом регистра

Google считает URL-адреса чувствительными к регистру.

URL-адреса чувствительны к регистру, но выбирайте любой регистр, какой захотите. — 🍌 Джон 🍌 (@JohnMu) 22 июня 2017 г.

ПРИМЕЧАНИЕ. Похоже, что это не  относится к Bing, который обрабатывает все URL-адреса в нижнем регистре. 

Это означает, что эти три URL-адреса разные:

  • example.com/страница
  • example.com/СТРАНИЦА
  • example.com/PAGE

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Будьте последовательны с внутренними ссылками (т. е. не ссылайтесь на несколько версий URL-адресов). Если это не решит проблему, вы всегда можете канонизировать или перенаправить.

Завершающие косые черты и неконечные косые черты

Google считает URL-адреса с косой чертой и без нее уникальными. Это означает, что эти два URL-адреса уникальны в глазах Google:

  • пример.com/страница/
  • example.com/страница

Если ваш контент доступен по обоим URL-адресам, это может привести к проблемам с дублированием контента.

Чтобы проверить, является ли это проблемой, попробуйте загрузить страницу с косой чертой на конце или без нее. В идеале загружается только одна версия. Другой перенаправит.

Например, если вы попытаетесь загрузить это сообщение без косой черты в конце, оно будет перенаправлено на URL-адрес с косой чертой в конце.

Google заявляет, что такое поведение идеально .

Если можно вернуть только одну версию (т.е. другая перенаправляет на нее), это прекрасно! Такое поведение полезно, поскольку оно уменьшает дублирование контента.

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Перенаправьте нежелательную версию (например, без косой черты) на нужную версию (например, с косой чертой). Вы также должны следить за тем, чтобы внутренние ссылки оставались последовательными. Не ссылайтесь на версии с косой чертой в конце, а иногда и без нее. Выберите один и придерживайтесь его.

URL-адреса, удобные для печати

Версии для печати имеют то же содержание, что и оригинал. Отличается только URL-адрес.

  • example.com/страница
  • example.com/print/page _ _

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Канонизировать версию для печати до оригинала.

URL-адреса, оптимизированные для мобильных устройств

URL-адреса, удобные для мобильных устройств, как и URL-адреса для печати, являются дубликатами.

  • example.com/страница
  • м. example.com/страница

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Канонизировать мобильную версию до оригинала. Используйте rel=»alternate», чтобы сообщить Google, что URL-адрес, удобный для мобильных устройств, представляет собой альтернативную версию контента для настольных компьютеров.

Рекомендуем к прочтению:  Аннотации для URL-адресов для компьютеров и мобильных устройств.

URL-адреса AMP

Ускоренные мобильные страницы (AMP) являются дубликатами.

  • example.com/страница
  • example.com/amp/page _ _

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Канонизировать версию AMP до версии без AMP. Используйте rel="amphtml", чтобы сообщить Google, что URL-адрес AMP является альтернативной версией контента, отличного от AMP.

Если у вас есть только AMP-контент, используйте самоссылающийся канонический тег.

Рекомендуем к прочтению:  Сделайте свои страницы видимыми – amp.dev

Страницы тегов и категорий

Большинство CMS создают специальные страницы тегов, когда вы используете теги.

Например, если у вас есть статья об органическом сывороточном белке и вы используете в качестве тегов «протеиновый порошок» и «сыворотка», то в итоге вы получите две такие страницы тегов:

Это не всегда приводит к дублированию контента само по себе, но может.

В данном случае это так, поскольку на сайте есть только одна страница с этими двумя тегами, поэтому каждая страница тегов идентична.

дубликат тега 1
дубликат тега 1

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Два варианта:

  • Не используйте теги.  В большинстве случаев они так или иначе не имеют никакой ценности.
  • Не индексируйте страницы с тегами. Это не решает проблему краулингового бюджета, поскольку Google все равно будет тратить время на сканирование этих страниц.

Обратите внимание, что страницы категорий могут вызывать аналогичные проблемы со страницами тегов.

Обе эти страницы практически идентичны, поскольку ни в одной из категорий нет товаров. Итак, все, что у нас осталось, это стандартная копия шаблона.

Решите эту проблему, используя разумное количество категорий на своем сайте или даже не индексируя  страницы категорий.

URL-адреса вложенных изображений

Многие CMS создают специальные страницы для вложений изображений. На этих страницах обычно нет ничего, кроме изображения и шаблонного текста.

Поскольку эта копия одинакова на всех автоматически созданных страницах, это приводит к дублированию контента.КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Отключите специальные страницы для изображений в вашей CMS. В WordPress вы можете сделать это с помощью плагина,  такого как Yoast.

Комментарии с разбивкой на страницы

WordPress и другие CMS допускают разбивку комментариев по страницам. Это приводит к дублированию контента, поскольку фактически создает несколько версий одних и тех же URL-адресов.

  • example.com/post/
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Отключите нумерацию комментариев или запретите индексирование страниц с нумерацией страниц с помощью плагина, такого как Yoast.

Локализация

Если вы предоставляете одинаковый контент людям в разных регионах, говорящим на одном языке, это может привести к дублированию контента.

Например, у вас могут быть разные версии вашего сайта для людей в США, Великобритании и Австралии. Поскольку между контентом, подаваемым в каждом регионе, скорее всего, есть лишь незначительные различия (например, цены в долларах и фунтах стерлингов), версии будут практически повторяться.ПРИМЕЧАНИЕ. По словам Джона Мюллера, 

переведенный контент не является дублирующим контентом .КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Используйте теги hreflang  , чтобы сообщить поисковым системам о взаимосвязи между вариантами.

Страницы результатов поиска

На многих веб-сайтах есть окна поиска. Их использование обычно приводит к URL-адресу параметризованного поиска.

Пример: example.com?q=search-term

Бывший руководитель отдела веб-спама Google Мэтт Каттс заявил ,  что:

Как правило, результаты веб-поиска не приносят пользы пользователям, и, поскольку наша основная цель — предоставить наилучшие результаты поиска, мы обычно исключаем результаты поиска из нашего индекса веб-поиска. (Конечно, не все URL-адреса, содержащие такие вещи, как «/results» или «/search», являются результатами поиска.) 

Мэтт Каттс

Мэтт Каттс, Бывший руководитель отдела веб-спама Google

КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Используйте метатег robots, чтобы удалить страницы поиска из индекса Google или заблокировать доступ к страницам результатов поиска в файле robots.txt . Воздержитесь от внутренних ссылок на страницы результатов поиска.

Промежуточная среда

Промежуточная среда — это дублирующая или почти дублирующая версия вашего сайта, используемая в целях тестирования.

Например, представьте, что вы хотите установить новый плагин или изменить код на своем сайте. Возможно, вы не захотите перенести это прямо на действующий сайт с сотнями тысяч посетителей в день. Риск катастрофы слишком высок. Решение состоит в том, чтобы сначала протестировать изменения в промежуточной среде.

Промежуточные среды становятся проблемой SEO, когда Google индексирует их, поскольку это приводит к дублированию контента.КАК РЕШИТЬ ЭТУ ПРОБЛЕМУ

Защитите свою промежуточную среду с помощью аутентификации HTTP, белого списка IP-адресов или доступа через VPN. Если он уже проиндексирован, используйте директиву robots noindex, чтобы удалить его.

Как проверить дублирование контента на вашем сайте

Зайдите в раздел аудита сайта Ahrefs  и начните сканирование.

После этого перейдите к отчету о качестве контента  .

Ищите кластеры дубликатов и почти дубликатов без канонического. Они выделены оранжевым цветом.

Проверка дубликатов сайта ahrefs без канонических

Щелкните любой из этих кластеров, чтобы просмотреть затронутые страницы.

дубликаты страниц без каноников

Выясните причину дублирования контента, а затем примите соответствующие меры.

Обратите внимание, что это не всегда проблемы, требующие исправления, особенно в случае большого количества дубликатов.ВЫ НЕ ЯВЛЯЕТЕСЬ ПОЛЬЗОВАТЕЛЕМ AHREFS?

Найдите эти предупреждения о дублированном контенте в консоли поиска Google:

  • Дублировать без выбранного пользователем канонического варианта
  • Дубликат, Google выбрал другой канонический, чем пользовательский
  • Повторяющийся отправленный URL-адрес не выбран как канонический.

Узнайте больше о том, как бороться с этими предупреждениями, здесь .

Чтобы узнать, как Google обрабатывает определенный URL-адрес, воспользуйтесь инструментом проверки URL-адресов .

проверка URL

Вы также можете проверить наличие повторяющихся тегов заголовков, метаописаний и H1 в отчете по тегам HTML .

Плохие дубликаты — это то, что вам нужно. Это страницы с повторяющимися метатегами, но с разными канониками.

Выберите их, нажав переключатель «Плохие дубликаты» в разделе « Теги и контент HTML».

плохие дубликаты html-тегов аудит сайта

Нажмите на любую из желтых полосок, чтобы увидеть затронутые страницы.

Страницы с повторяющимися заголовками, метаописаниями или H1 часто очень похожи.

Например, у этих двух тегов заголовок одинаковый, а контент практически идентичен, поскольку продукт один и тот же. Единственное отличие состоит в том, что одна из страниц предназначена для трех пакетов журналов мгновенного освещения, а другая — только для одного.

Google утверждает  , что вам следует минимизировать подобный контент, например:

Если у вас много похожих страниц, рассмотрите возможность расширения каждой страницы или объединения страниц в одну. 

Однако небольшое количество похожих страниц вряд ли станет большой проблемой.

Как проверить наличие дублирующихся проблем с контентом в Интернете

Очистка и распространение контента также может привести к проблемам с дублированием контента. Но обычно это проблема только в том случае, если вы видите, что очищенные версии вашего контента превосходят вас по рейтингу.

Это происходит? Да, но это часто является проблемой для новых или слабых веб-сайтов. Почему? Потому что сайты, собирающие ваш контент, зачастую более авторитетны. Иногда это «обманывает» Google, заставляя его думать, что это оригинал.

Если у вас небольшой веб-сайт, вы часто можете найти очищенный контент, выполнив поиск в Google фрагмента текста с вашей страницы в кавычках.

очищенный контент Google

Для более крупных сайтов вам потребуется использовать автоматизированный инструмент, например Copyscape . При этом в Интернете выполняется поиск других вхождений контента на вашей странице(-ах).

копирайтинг

Какой бы метод вы ни использовали, большинство результатов будут получены со спамовых и некачественных сайтов.

В целом, в этом нет ничего страшного. Однако, если вы видите, что законный веб-сайт скопировал ваш контент, и обеспокоены тем, что он может украсть ваш трафик, добавьте URL-адрес в Site Explorer от Ahrefs,  чтобы увидеть оценку органического трафика.

оценка трафика ahrefs

Если она получает больше трафика, чем ваша страница, возможно, возникла проблема.

В этом случае у вас есть три варианта:

  1. Свяжитесь с нами и попросите удалить контент.
  2. Свяжитесь с ними и попросите добавить на ваш сайт каноническую ссылку на оригинал.
  3. Отправьте запрос на удаление DMCA  через Google.

Если вы намеренно распространяете контент на другие веб-сайты, стоит попросить их добавить каноническую ссылку на оригинал. Это устранит риск дублирования контента.

ПОВТОРНО ПУБЛИКУЕТЕ КОНТЕНТ НА СВОЕМ САЙТЕ?

Если вы повторно публикуете контент других пользователей на своем сайте, есть два способа предотвратить проблемы с дублированием контента:

  1. Канонизировать обратно в оригинал.
  2. Не индексировать страницу.

Последние мысли

Не переживайте слишком сильно из-за дублирования контента. Обычно это гораздо меньшая проблема, чем принято считать.

Если у вас есть несколько повторяющихся или почти повторяющихся страниц, вряд ли возникнут серьезные проблемы. То же самое справедливо и при цитировании контента с другого веб-сайта или других страниц вашего сайта. Небольшое количество дублированного или шаблонного контента недопустимо. У Google есть системы для решения таких проблем.

Вам нужно обратить внимание на технические ошибки SEO, которые приводят к созданию сотен или тысяч страниц дублированного контента, например, неправильная реализация фасетной навигации на сайтах электронной коммерции.

Помимо прочего, это может нанести ущерб вашему краулинговому бюджету.