post
Бесплатная школа YouTube 3.0

Файл robots.txt — это инструкция для поисковых роботов (Яндекса, Гугла), которая помогает им правильно индексировать ваш сайта, разрешать или запрещать индексацию разделов, страниц. Правильный robots.txt для WordPress позволяет индексировать только страницы и записи, не засоряя поисковую выдачу дублями страниц и различным мусором.

Итак, сразу к делу. Вот оптимальный файл robots.txt для сайта на WordPress (пояснения смотрите ниже):

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: maxtop.org
Sitemap: http://maxtop.org/sitemap.xml.gz
Sitemap: http://maxtop.org/sitemap.xml

Важно: измените адрес сайта с maxtop.org на ваш собственный!

А теперь расскажу по порядку, какие строки за что отвечают.

1. Как выбрать робота, к которому вы обращаетесь?

User-agent — это обращение к определенному поисковому роботу. Помимо того, что у каждой поисковой системы свой робот (Яндекс, Google), так еще и в рамках одного поисковика есть десяток специфических роботов. Например, YandexBot — основной робот Яндекса, YandexMedia — робот, индексирующий мультимедиа — картинки, аудио, видео, YandexImages — специализированный индексатор картинок (в Яндекс-картинки). Есть даже специальные роботы, которые сканируют микроразметку сайта.

Но нам особо вдаваться в детали не надо, только запомните, что звездочкой (*) отмечается обращение ко всем поисковым роботам.

2. Директивы в robots.txt.

Итак, к роботу мы обратились, теперь надо дать ему команду. Эти команды или директивы могут быть следующие:

Disallow: — запрет на индексацию раздела, страницы, регулярного выражения. Вы говорите роботу: «Вот это не смотри и в поисковую выдачу не добавляй». Нужно для запрета индексации служебных разделов, административной панели и для удаления дублей страниц. Дубли — это одинаковые страницы, доступные по разным адресам. Например, данная статья, которую вы читаете доступна по адресам:

http://maxtop.org/?p=1575
http://maxtop.org/robots-txt-dlya-wordpress/

Однако нам обе ссылки не нужны, т.к. это будет дубль страницы. И в роботс.тхт мы можем закрыть такие и подобные дубли.

Allow: — призыв к индексации страниц, разделов, ссылок. Вы говорите роботу: «Это обязательно нужно проиндексировать и добавить в поисковую выдачу!»

Host: — это указание основного хоста или адреса вашего сайта (совпадает с доменным именем сайта).

Sitemap: — это указание адреса карты сайта (в формате xml или в заархивированном виде). Вы помогаете роботу найти карту сайта, которая отражает структуру материалов у вас на сайте.

Внимание: убедитесь, что у вас установлен плагин карты сайта и что по указанному адресу действительно открывается карта сайта! Если нет — установите плагин Google (XML) Sitemaps Generator for WordPress.

3. Регулярные выражения в файле robots.txt.

Чтобы вручную не прописывать сотни ссылок для запрета или разрешения индексации можно применить регулярные выражения, которые значительно упростят вашу работу. Рассмотрим пример:

Disallow: /category/*/*

Звездочка обозначает подстановку любой части url. Таким образом, приведенная директива запрещает индексацию всех ссылок, содержащих часть «category». Это необходимо для устранения дублей, когда одна запись на вашем сайте доступна по прямой ссылке и по ссылке с префиксом «category».

Другой пример:

Disallow: /?s=

Это запрет индексации всех результатов поиска на сайте (все, что выдается в окне поиска по сайту).

А теперь не забудьте настроить файл .htaccess для своего сайта.

Бесплатная школа YouTube 3.0

Поделитесь этой записью с друзьями, буду благодарен!

30 комментариев “Robots.txt для WordPress

  1. Добрый день, господа!

    Сердечно благодарю Вас за урок о переносе сайта. Слава Богу, сайт перенес, всё получилось, а у меня было на сайт 300 страниц)) единственное cforms «хромает» но это мелочи, можно заменить другой или перенастроить. Еще раз благодарю. И прошу Вас уделить мне несколько минут Вашего внимания. Главным зеркалом у меня является сайт msmsoteria.org а вторым зеркалом, сайт с которого я перенес материалы и домен которого со временем удалю, называется soteria.org.ua Пожалуйста, посмотрите на файлы robots для главного и второго зеркала, которые я прилагаю к письму. Правильные ли я произвел изменения в этих файлах в соответствии с ссылкой, которую Вы давали.

    И последний вопрос, господа. Подскажите пожалуйста, как настроить постраничный редирект, чтобы редирект был не на главную страницу, а на ту же, на которую заходят посетители на втором зеркале.

    Благодарю Вас. Файлы прилагаю.

    С ув. Михаил.

    Из-за невозможности добавить файлы в отдельности, я укажу их в комментарии, а Вы затем сможете удалить, ок?

    • Добрый день!

      Вам нужно только установить постоянный редирект со старого домена на новый и прописать в robots.txt новый хост.

      Все в точности сделать как в советах от Яндекса: help.yandex.ru/webmaster/yandex-indexing/moving-site.xml

  2. Денис здравствуйте! Подскажите пожалуйста в файле robots.txt нужно закрывать от индексации страницы: ps-blog.ru/page/2, ps-blog.ru/page/3 ? Не являются ли они дублирующим контентом? Сайт ps-blog.ru

    • Здравствуйте!

      Закрывать от индексации данные страницы не нужно, они не являются дублями, ведь это просто навигация по страницам сайта.

  3. К сожалению все пишут эту рекомендацию, после которой дубли попадают в сопливый индекс гугла. В документации гугла идет речь, только о мета теге роботс, как его настроить написало 2 блогера с 30, и то с недоговорками. Только Яндекс воспринимает роботс.тхт, гуглу пофиг на него, точнее у него команда ноиндекс фоллов. По данному сайту в гугле в 3 раза больше страниц проиндексировано, чем в Яндексе, это показатель того что роботс.тхт для Гугла носит рекомендательный характер.

  4. Здравствуйте,у меня такая проблема,я вставляю робот.тхт в корень сайта,но в веб мастере он всеравно показывает что его нет,пробовал кучу раз ,не знаю что делать,подскажите пожалуйсто?

    • Если robots.txt корректно открывается в адресной строке сайта, то все должно быть нормально. Еще проверьте в исходном коде, не переписывают ли директивы роботса какие-нибудь плагины

  5. Большое спасибо за ваши статьи.

    У меня сайт строительной тематики и приходится давать в статьях файлы с нормативными документами для скачиваниями.

    Файлы формата pdf, doc, docs и другие

    Естественно они индексируются, это очевидно вредно для позиции сайта.

    Подскажите. как их закрыть от индексирования.

    Если вас не затруднит, пжл продублируйте ответ на мыло

    • Можно запретить индексацию в файле htaccess. Но почему же это вредно для позиций сайта? Это же дополнительный контент, тематический, не плагиат других ресурсов. Так что вреда не вижу от этого.

  6. Вопрос такой, про внешние ссылки.

    У меня на сайте, целая страница посвящена ссылкам, там куча ссылок с аннотация, и я планирую данный раздел расширят.

    А по прочтению данной статьи, и просмотра вашей серии видео про оптимизацию на WordPress, возник вопрос. А может логично в таких случаях закрывать данную страницу от роботов по средствам файла robots.txt?

    Будет ли это работать правильно, или все таки лучше прибегнут к тем способам которые были показаны в видео.

    Правда, даже глядя не опытным взглядом, понимаю, что таким способом отсеку массу контента, я про аннотации, который может работать на подъем, но если я готов пойти на данные потери, будет ли предложенный способ действенным и уместным.

    • Если у вас отдельная страница, на которой много внешних ссылок, ее можно закрыть от индексации целиком. Если страница принципиально важна для сайта и ее надо индексировать, то закрывайте отдельно каждую ссылку.

  7. Денис, у меня такой вопрос.

    Сегодня зашел на Яндекса Вебмастер, там в «исключенных страницах» в «документ запрещен в файле robots.txt» обнаружил список важных для сайта страниц причем большая часть из всех имеющихся на сайте, а в «структуре сайта» нашел всего две страницы. Вопрос чем это вызвано?

    Файл у меня ваш, запретил в нем только одну страницу, где много внешних ссылок.

    Последняя дата посещения робота 24.01.15 то есть вчера, сайту в том виде какой он сейчас три недели, почему так, или они его не проиндексировали полностью а все валят на файл, или мне надо что то с файлом делать.

    Или мне нужно удалит с вашего стандартного сайта Disallow: /?s=

    Но ведь две страницы проиндексированы.

    В помощи на Вебмастере пишут что то про ссылки на других страницах но я так и не понял извините мою дремучесть,

    Разъясните пожалуйста возможные причины данного явления и что делать.

    На гугле к стати к файлу претензий нет 0 ошибок.

    И еще один вопрос, в файле адрес сайта вносить с www или без, а то зеркалами пугают но пере адресация у меня работает?

    • Надо смотреть, если у вас не-ЧПУ ссылки, то надо удалять из файла некоторые элементы. Если ссылки ЧПУ, то причина иная. Может сайт еще не успел проиндексироваться? Каков возраст сайта?

      По поводу без или с www — сайт должен открываться только в одном варианте. Например, набрали с www, а он сразу переадресовал на без www. Это редирект 301 так работает. Соответственно и надо писать в роботс адрес.

  8. Cайту в том виде какой он сейчас три недели, Последняя дата посещения робота 24.01.15 то есть три дня назад, До этого лет пять существовал подобный сайт но написанный на Dreamweaver не о каких robots.txt я тогда не знал их там и не было.

    В общем спасибо буду разбираться.

    • Да в «Страницы в поиске» На Яндекс Вебмастере, есть все ссылки на страницы которые хотелось бы видеть проиндексированными, и даже на те которые прикрывал, а урлы в «исключенных страницах», в «Документ запрещен robots.txt» ведут на какие то страницы с кодом, с такой надписью в начале страницы « This XML file does not appear to have any style information associated with it. The document tree is shown below.»

      Я так понял, что все в порядке, не индексируются какие то программные файлы? Хотя мне об этом судить трудно.

  9. Здравствуйте!

    Спасибо за интересные статьи!

    Но все таки не так подробно о том, какие строки за что отвечают...Поэтому есть несколько вопросов,

    в надежде на ответы...))

    1. Читал что, то что указано в этом файле не есть «приказ» для робота, а всего лишь, «просьба».

    То есть, он может проигнорировать. В частности:

    Disallow: /*?*

    Disallow: /?s=

    И в итоге буде куча не нужных и опасных дублей... Так ли это?

    2. У меня карта сайта это, — sitemap.xml

    Нужно ли, и зачем вообще писать в Robots еще и это, — sitemap.xml.gz?

    3. Денис, тут в комментариях, Вы пишите что закрывать навигацию страниц не нужно, так как дублями это не считается...У других авторов, я читал совершенно обратное...

    Не подскажите, где и что почитать, а том что является дублем а что нет? Я имею виду, какая информация является правдоподобной? (в частности про архивы и постраничную навигацию)

    P.S

    Последний вопрос: На ютуб, смотрел ваше видео, — WordPress SEO #4 про «All in one Seo Pack»

    К сожалению, там слишком кратко разбирается настройка пунктов, в «основной» и настройке «индексации»... Между тем, пункт «No Pagination for Canonical URLs:» вызвал бурное обсуждение в сети, и мне например было б интересно узнать, единственная ли это причина, по которой люди стали отказываться от «All in one Seo Pack» в пользу «SEO by Yoast»...

    Так вот вопрос, нет ли у Вас более подробной статьи или еще какого видео на этот счет?

    С уважением, Алексей!

  10. Вот смотрите, в роботсе указаны такие строки: Disallow: /wp-login.php

    Disallow: /wp-register.php, но по правилам безопасности wp-login.php нужно переименовывать!

    если его здесь указать в роботсе, то какой смысл от переименования? Любой злоумышленник может зайти в роботс и посмотреть!

  11. Приветствую! Помогите разобраться. Сделал как вы рекомендовали — взял за основу ваш robots.txt, а при переходе на адрес robots.txt загружается только это:

    User-agent: *

    Disallow: /wp-admin/

    • Значит robots.txt либо не тот, либо какой-то плагин его перезаписывать принудительно.

  12. Здраствуте, подскажите нужно ли закрывать от индексации категории Disallow: /category/*/* или нет?! все никак не могу разобраться...

  13. Disallow: /*?*

    Disallow: /wp-content/themes

    этот два пункт помешал индексировать Mobile version

    поэтому я их удалил

    • Этот же роботс подойдет, если на Woocommerce правильно настроены постоянные ссылки.

  14. Здравствуйте. Помогите разобраться, пожалуйста. Залил ваш robot.txt в корень сайта. Вписал свой адрес везде. Гугл при добавлении sitemap.xml выдает ошибку «При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашим правилам и находится в указанном местоположении, а затем отправьте его повторно.» и дальше «URL, запрещенный файлом robots.txt Sitemap: jazz-life.od.ua/page-sitemap.xml». Как исправить это? Уже почти день мучаюсь, не выходит совсем. Спасибо

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *