Что такое и какие бывают дубли страниц
- Что такое дубли страниц
- Полные дубли страниц
- Дубли на служебных страницах
- Частичные дубли (фрагментов текста)
- Заключение, или как напакостить соседу
Что такое дубли страниц
Логично предположить, что дублями (дублированными) называются страницы сайта с одинаковым (дублированным) контентом. Но, как говорят в анекдотах, есть нюанс. И не один.
В большинстве (но не подавляющем!) случаев, данное предположение будет верно, так как появляются такие страницы по неопытности начинающего (или безалаберности опытного) вебмастера. Например, если вебмастер мало внимания уделил работе по приведению адресации своего сайта в единообразный вид. На сайте должен быть армейский порядок и единообразие. Или все в сапогах, или в ботинках. И если все страницы раздела доступны по адресу вида:
http://site.com/sections/XX/
Где «ХХ» = ID раздела в базе данных, то раздел не должен быть доступен по адресу:
http://site.com/section_articles.php?section_id=XX
Казалось бы, проще простого, но, как говорят бывалые вояки: «Если операция развивается успешно, значит — это засада». Постараемся как-то выделить и умно обозвать встречающиеся на просторах интернета варианты дублирования контента в пределах одного сайта, от простых к более сложным. Естественно, думая при этом, как поисковый робот (честный, но глупый).
Полные дубли страниц
Как сказано в примере выше, такой вид дублирования контента появляется исключительно по недосмотру. Если вы большой босс и у вас есть свои вебмастера в подчинении, то кто ж вам признается в совершении злонамеренной диверсии? Поэтому — по неопытности и недосмотру. Поисковые роботы тоже относятся к этому явлению крайне негативно, поэтому стоит заострить внимание на данной проблеме, несмотря на кажущуюся несерьёзность.
Особенности полных дубликатов
-
Контент дублирован полностью на все 100%.
Не только текст внутри тега body, а вся HTML-страница целиком, со всеми ссылками, стилями, яваскриптами ошибками и прочим мусором. Так как, в большинстве случаев, просто по разным (с точки зрения поисковых роботов) адресам выводится программными средствами (CMS) одинаковое содержимое из-за излишней универсальности движка. -
Наиболее нелюбимы поисковиками!
Фильтры настроены на репрессии, применяемые к сайту санкции весьма тяжелы, вплоть до полного бана проекта поисковой системой (за дубль главной страницы, например). По ихней логике, такие примитивные ошибки являются свидетельством полной некомпетентности сайтовода и, следовательно, ничего путного на данном ресурсе быть не может. -
Подобные дубли легко обнаруживаются.
Причем даже не особо опытными новичками, а то и самими посетителями сайта. Отчасти потому, что все мало-мальски опытные чайники (вроде меня) знают, где их можно искать на сайтах. Как грибы в лесу. А также, визуально легко заметить две идентичные страницы. Чтобы не ковыряться со скриптами и вбиванием адресов в браузер, можно просто посмотреть на список проиндексированных в Google страниц с помощью оператора site (задайте строку запроса «site:avolberg.ru», например). Такие страницы часто имеют одинаковый сниппет и заголовок (если поисковик их еще не успел склеить). -
И легко устраняются.
В большинстве случаев достаточно минимальных телодвижений, базовых знаний, небольших навыков программирования, правильно заданного вопроса более опытному товарищу или просто гугления в поисках готового решения.
Наиболее распространённые случаи полных дублей
- Одинаковый контент выдается по адресам с префиксом «www.» и без (например http://site.com/ и http://www.site.com/).
- Одинаковый контент выдается по основному адресу сайта и по полному имени страницы по умолчанию (например http://site.com/ и http://site.com/index.php).
- Одинаковый контент отдельной страницы (статьи) выдается как с суффиксом, так и без (неправильно настроена CMS), например http://site.com/blog/statja.html и http://site.com/blog/statja.
- Лишние страницы в постраничной разбивке: когда программист не удосуживается проверять условие достижения максимально возможной страницы и его творение бездумно лепит ссылку «следующая страница» с +1 к номеру текущей, а там или повтор содержимого последней страницы, или пустота, опять же — со ссылкой на следующую пустую страницу и так далее (поисковый бот вас зарежет за такое, если сможет вернуться из данной бесконечности).
- Одинаковые страницы при неправильной обработке реферальных ссылок без редиректа 301 со страницы учета реферала на основную. Пришедшего по реферальной ссылке http://site.com/megaskidki?ref=777 посетителя следует сразу после занесения его на счет партнера перенаправить на http://site.com/megaskidki через 301-ый редирект. Дополнительная опасность, что такие ссылки ставятся не вами на внешних сайтах, а робот по ним придет и наиндексирует дублей, о чем вы можете даже никогда и не узнать.
- Открытая для индексации страница ошибки 404 (документ не найден). Частенько многие забывают закрыть сообщение об ошибке от индексации, или забывают отправить корректный ответ сервера «404 Not found». В результате робот, переходя на ваш сайт по ошибочным внешним ссылкам встречает одну и ту же страницу. Если там еще и ответ сервера «200» (типа «всё нормально, ошибки нет»), то результат предсказуем.
- Ошибки программирования помноженные на отсутствие «страницы 404», выражающиеся в том, что при обращении по неправильному адресу человек или робот получает сообщение о ошибке языка программирования. И пойдут у вас по ошибочным адресам страницы с ну о-о-очень уникальными текстами вида «Fatal error: Uncaught exception 'Zend_Cache_Exception' with message 'cache_dir must be a directory' in bla-bla-bla…». Да еще и на английском языке, вместо русского.
Дубли на служебных страницах
Может быть полным, может быть частичным. Речь пойдет о различных служебных страницах, предназначенных для вывода чего-то там в режиме, отличающимся от стандартного на конкретном сайте.
Опознание «служебных» дубликатов
-
Доля одинакового контента хоть и не стопроцентная, но внушительная.
Основной текст публикации зачастую выводится весь, различаются страницы только HTML-обрамлением и отсутствием/присутствием ссылок главного меню, подвала, дополнительных блоков и т.п. -
Сами по себе вторичны — соответствуют какой-либо нормальной странице сайта.
С которой и имеют ссылку на себя. Прячутся либо ниже по иерархии страниц (при использовании ЧПУ), либо на том же уровне (при адресации через GET-параметры). -
Зачастую посещаются гораздо меньшим количеством живых людей, чем обычные страницы.
Не надейтесь, что вам кто-то подскажет о вашем недосмотре. -
С другой стороны, разработчик легко найдет подобные проблемные места.
И примет меры непосредственно в процессе программирования и настройки системы, если, конечно, будет держать на задворках подсознания мысль о недопущении попадания на глаза роботам вторичных сервисных страниц, создаваемых для удобства посетителей.
Где искать «служебные» дубли
- Версия для печати. Самая распространенная ошибка такого рода — не закрыть от индексации данную страницу. И у нас теперь (оп-па!) на сайте два одинаковых текста, как минимум. Стопроцентный дубль. Хохма в том, что так называемая «принт-версия», содержащая гораздо меньше HTML-кода, может понравиться поисковому роботу гораздо больше своей прародительницы, перегруженной дизайном и ссылками. И, соответственно, при склейке оказаться в индексе и начать принимать на себя посетителей, которые, глядя на чистый белый лист с текстом не смогут понять, а что им, собственно, дальше делать (и где заказать ваш чудо-товар).
- Неудачно реализованная настройка темы дизайна. Не через профиль пользователя, а ссылками с GET-параметрами вида «?theme=mega_design_2» где-нибудь в шапке. Роботу как-то пофиг на визуальные красоты, и он увидит дубликат той же самой страницы только немного в другом HTML-обрамлении и с другими ссылками на стили CSS.
- Страницы различных режимов вывода информации. Вы их встречали: различные режимы сортировки записей в блоге (убыванию, возрастанию даты публикации), программная «фильтрация», при которой из общего списка публикаций то пропадут, то появятся всего 1-2 абзаца текста (аннотации к статье, например). Разумеется, поисковик посчитает это дублем. Иначе можно было бы просто тупо копировать тексты с чужого сайта и, убрав малозначащий абзац, претендовать на уникальность.
- Файлы в других популярных форматах. Например, PDF-файлы (Adobe Acrobat) и DOC (Microsoft Office). Поисковики прекрасно умеют их индексировать. Не знаю точно, насколько они считают такие файлы самостоятельной информационной единицей, но потенциальная опасность увидеть в выдаче PDF вместо страницы сайта есть.
Чтобы избежать неприятностей дублирования, следует не пускать поисковых роботов в проблемные места любыми путями. Или запрещать от индексации страницы, или делать так, чтобы роботы туда просто не пошли. Например, ту же смену дизайна можно организовать с помощью формы с методом запроса «POST» и последующим редиректом, воспользоваться javascript, наконец (его сейчас мало кто отключает).
Частичные дубли (фрагментов текста)
Можно сказать, это бич модных сегодня, но неграмотно настроенных/запрограммированных блогов, информационных сайтов и каталогов интернет-магазинов. С этой кучей всяких там категорий, тегов и других примочек что-то да не понравится привередливому поисковику.
Характерные черты частичного дублирования
- Труднообнаружимы. При автоматизации всего и вся часто можно не заметить проблему. И поисковики поумнели — санкции наложат, а в индекс не включат. А человеку визуально сразу различить трудно, в отличие от робота, для которого аннотация одной статьи в категориях и тегах — уже звоночек.
- Мешают правильному ранжированию страниц в индексе поисковиков, причем скрытно и ненавязчиво. Делают непредсказуемым результат индексации, чреваты пессимизацией (понижением в результатах поиска). Если робот решит, что запросу «ваш отличнейший товар» лучше всего соответствует не сама страница товара, а какая-то промежуточная из общего списка (http://site.com/tovary/page/8/ вместо http://site.com/tovary/moj-mega-tovar/), то ваш пользователь рискует вообще не найти, где ж ему заказать столь хорошую вещь, когда анонс товара оттуда уже «уползёт» под «давлением» свежих поступлений в каталог.
Известные реализации частичных дублей информации
Именно реализации. Тысячи программистов разной квалификации изо дня в день реализуют одинаковые механизмы и делают одинаковые ошибки. Сайтов много, движков для них тоже понаписано изрядно. Так что смотреть надо индивидуально в каждом случае. Наиболее частые проблемы происходят от автоматически создаваемых скриптами сайта страниц категорий, тегов, различных функциональных блоков, где выводятся краткие анонсы товаров или статей, полученные также автоматически путем вывода, например, первого абзаца из полного текста анонсируемой страницы.
Бороться с явлением следует комплексно, запретами индексации, использованием javascript, написанием аннотаций и анонсов живым человеком (вручную) и так далее.
Заключение, или как напакостить соседу
Если вы начинающий сайтовод, то марш бегом шерстить свой проект на предмет существующих и возможных дублей страниц. Именно так, не только явных, на которые есть ссылки, но и возможных тоже. Кто-то может поставить на вас ссылку с ошибкой в адресе, да и вы сами можете ошибиться где-то. Обидевшийся на вас (или натравленный конкурентами) злобный чёрный SEO-шник вообще может найти у вас скрытые дубли и проспамить интернет неправильными ссылками на вас, по которым поисковики наполучают с вашего сайта дубликатов и применят к вам штрафные санкции. А вы и знать не будете, чего это к вам на сайт никто с гуглояндекса не ходит.
Вы правда это до конца дочитали или сразу на «напакостить соседу» прыгнули? Если дочитали, то я преклоняюсь перед вашим упорством. Если нет — что ж, вполне предсказуемо, мерзкие подлые земляне, это ещё один голос в галактическом сенате в пользу уничтожения вашей планеты.
27.02.2011 | 05:04
