chok-chok-shop.ru

Где на wordpress файл robot txt.

(Последнее обновление: 31.05.2019)

Привет всем! Сегодня тема очень важная это - robots.txt для сайта WordPress . Поисковые роботы заходя на сайт или блог первым делом ищут файл robots.txt . Что такое robots.txt? Robots.txt - служебный файл, который находится в корневом каталоге сайта и содержит набор директив, позволяющих управлять индексацией сайта. Он позволяет указывать поисковым системам, какие страницы сайта или файлы должны присутствовать в поиске, а какие - нет. Когда приходит на хостинг, файл robots.txt является одним из первых документов, к которому он обращается.

Создание robots.txt для сайта WordPress

Как создать файл robots.txt для WordPress

Robots.txt в большинстве случаев используется для исключения дубликатов, служебных страниц, удаленных страниц и других ненужных страниц из индекса поисковых систем. Кроме того, именно через robots.txt можно указать ПС адрес карты сайта.

Воспользуйтесь любым текстовым редактором (например, блокнотом), создайте файл с именем robots.txt и заполните его как показано ниже. Файл должен называться robots.txt, а не так - Robots.txt или ROBOTS.TXT.

После этого необходимо загрузить файл в корневой каталог вашего сайта.

Файл robots.txt должен располагаться строго в корне сайта и он должен быть единственным.

Оптимальный, правильный robots.txt для сайта WordPress. Общий для и Яндекс. Такой robots.txt у меня стоит на всех сайтах:

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /core/ Disallow: */feed Disallow: *?s= Disallow: *&s= Disallow: /search Disallow: */embed Disallow: *?attachment_id= Disallow: /id_date Disallow: */page/ Disallow: *?stats_author Disallow: *?all_comments Disallow: *?post_type=func Disallow: /filecode Disallow: /profile Disallow: /qtag/ Disallow: /articles/ Disallow: /artictag/ Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /*ajax Sitemap: http://example.com/sitemap.xml

Стандартный robots.txt WordPress

Раздельный для Google и Yandex:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://сайт.ру/sitemap.xml

Замените сайт.ру на ваш URL адрес блога. Смело можете скормить данным файлом поисковые системы Яндекс и Google.

Как настроить индивидуально важный файл robots.txt можно прочитав эти справки:

На странице помощи Яндекса . Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt. Далее, в Google robots.txt можно проверить по этой ссылке . Не забудьте что проверяемый блог должен быть добавлен в Инструменты для веб-мастеров Google и Яндекс .

Обратите внимание, что для Яндекса и Google правила составления robots.txt немного различаются. Вот ещё полезный ресурс для изучения robotstxt.org.ru . Вот и всё.

Теперь остаётся загрузить созданный файл в корневой каталог вашего блога. Корень блога это - папка public_html, где находятся файл config.php, index.php и так далее.

В заключение

Создание и тщательная подготовка robots.txt крайне важны. При его отсутствии поисковые роботы собирают всю информацию, относящуюся к сайту. В поиске могут появиться незаполненные страницы, служебная информация или тестовая версия сайта.

Вот на этом позвольте с вами не надолго попрощаться. Удачи. До новых встреч на страницах блога.

(function(w, d, n, s, t) { w[n] = w[n] || ; w[n].push(function() { Ya.Context.AdvManager.render({ blockId: "R-A-292864-4", renderTo: "yandex_rtb_R-A-292864-4", async: true }); }); t = d.getElementsByTagName("script"); s = d.createElement("script"); s.type = "text/javascript"; s.src = "//an.yandex.ru/system/context.js"; s.async = true; t.parentNode.insertBefore(s, t); })(this, this.document, "yandexContextAsyncCallbacks");

Robots.txt - текстовой файл, который сообщает поисковым роботам, какие файлы и папки следует сканировать (индексировать), а какие сканировать не нужно.

Поисковые системы, такие как Яндекс и Google сначала проверяют файл robots.txt, после этого начинают обход с помощью веб-роботов, которые занимаются архивированием и категоризацией веб сайтов.

Файл robots.txt содержит набор инструкций, которые просят бота игнорировать определенные файлы или каталоги. Это может быть сделано в целях конфиденциальности или потому что владелец сайта считает, что содержимое этих файлов и каталогов не должны появляться в выдаче поисковых систем.

Если веб-сайт имеет более одного субдомена, каждый субдомен должен иметь свой собственный файл robots.txt. Важно отметить, что не все боты будут использовать файл robots.txt. Некоторые злонамеренные боты даже читают файл robots.txt, чтобы найти, какие файлы и каталоги Вы хотели скрыть. Кроме того, даже если файл robots.txt указывает игнорировать определенные страницы на сайте, эти страницы могут по-прежнему появляться в результатах поиска, если на них ссылаются другие просканированные страницы. Стандартный роботс тхт для вордпресс открывает весь сайт для интдекса, поэтому нам нужно закрыть не нужные разделы WordPress от индексации.

Оптимальный robots.txt

User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # системная папка на хостинге, закрывается всегда Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # запрос поиска Disallow: *&s= # запрос поиска Disallow: /search/ # запрос поиска Disallow: /author/ # архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть # архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Host прописывать больше не нужно.

Расширенный вариант (разделенные правила для Google и Яндекса)

User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Host прописывать больше не нужно.

Оптимальный Robots.txt для WooCommerce

Владельцы интернет-магазинов на WordPress - WooCommerce также должны позаботиться о правильном robots.txt. Мы закроем от индексации корзину, страницу оформления заказа и ссылки на добавление товара в корзину.

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Disallow: /cart/ Disallow: /checkout/ Disallow: /*add-to-cart=* Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Sitemap: https://site.ru/sitemap_index.xml

Вопрос/ответ

Где находится файл robots.txt в вордпресс

Обычно robots.txt располагается в корне сайта. Если его нет, то потребуется создать текстовой файл и загрузить его на сайт по FTP или панель управления на хостинге. Если Вы не смогли найти роботс тхт в корне сайта, но при переходе по ссылке вашсайт.ру/robots.txt он открывается, значит какой то из SEO плагинов сам генерирует его.

Файл robots.txt это текстовой файл, в котором прописываются правила для поисковых машин для сканирования, а значит индексации папок и файлов сайта. Находится файл robots.txt должен в корневом каталоге сайта. Файл robots.txt наряду с это основные документы SEO оптимизации блогов сделанных на CMS WordPress.

Важно! Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow), а также между директивами Disallow и Allow .

Важно! URL файла robots.txt чувствителен к регистру.

На базовой версии файл robots.txt для wordpress выглядит следующим образом:

User-agent: Disallow: /wp-admin/ Disallow: /wp-includes/

  • User-agent э то обращение к поисковикам. [*] звезда, означает, что следующие директивы группы обращены ко всем поисковикам;
  • Директива Disallow запрещает поисковикам индексировать только то, что находится в папках /wp-admin/ и /wp-includes/.

Файл robots.txt составляется из строк, каждая из которых является отдельной директивой. Директива, а проще говоря, правило, пишется для поисковиков. Весь файл robots.txt пишется по специальному несложному синтаксису.

Синтаксис файла robots.txt

Символ ‘#’ назначен для комментариев. Все, что находится после решетки и до первого перевода строки не исполняется и не учитывается поисковиками.

Первой рабочей директивой файла robots.txt (начало группы) нужно прописывать директиву User-agent . Она показывает к кому поисковику относится следующие за ним директивы;

Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow);

Директива User-agent со звездой, то есть User-agent: * , означает, что правила robots.txt относятся ко всем поисковикам;

Для главных поисковых роботов Яндекс и Google директивы User-agent файла robots.txt должны выгладить так:

User-agent: Yandex User-agent: Googlebot

Правила для поисковиков прописываются директивами «Disallow» — запрет или «Allow»-разрешение;

User-agent: * Allow: /cgi-bin Disallow: / # запрещает скачивать все, кроме страниц # начинающихся с "/cgi-bin"

Любой файл robots.txt должен содержать директиву «Disallow»;

Пустая Disallow разрешает индексацию всего сайта, Disallow закрытая слеш (/) полностью закрывает сайт от индексации.

Disallow: / # блокирует доступ ко всему сайту

Составим Файл robots.txt для wordpresss

Что же стоит спрятать от поисковиков?

Разумно спрятать все папки с личной информацией, паролями, логинами и т.п. Это три папки. Директивы выглядят так:

User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallw: /wp-includes/

Все плагины блога, темы, кэш не являются контентной информацией блога, поэтому их тоже спрячем.

Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/

В SEO продвижении, особенно в структуре WP, важное значение имеет отсутствие повторов (дублирование) контента в зоне одного домена. Дублирование возникает при редактировании материалов, при комментировании, при работе на блоге нескольких авторов, при постоянном упоминании одного автора в представлении к статье (имя автора). Много дублирования в тегах блога. Cтоит спрятать эти папки от поисковиков.

Disallow: /*?* Disallow: /*?

Таким же образом вы можете запретить индексацию любой папки или файла блога. Чтобы запретить индексацию файлов, например.pdf нужно прописать директиву:

Disallow: /*.pdf

Спецсимвол звезда ‘*’ означает любую, включая пустую, последовательность символов.

В файле robots.txt есть одна интересная директива специальная для Яндекс. Это директива Host. С помощью неё вы можете (должны) сообщить Яндекс основной домен (главное зеркало) своего блога. Директив Host в файле должна быть одна. Если внесены несколько директив Host читается первая по списку. Правда, для этого нужно сделать отдельную секцию для “User-agent” для Яндекс.

User-agent: Yandex

В файл robots.txt обязательно нужно вставить информацию о своей карте Sitemap

Карту-сайта нужно генерировать при помощи любого веб-инструмента Sitemap. Он генерирует четыре формата карты-сайта. Один из них, файл формата [.xml], сначала нужно загрузить в корень сайта, а потом включить в файл robots.txt. Если карт-сайта несколько загрузите все. Рекомендую два генератора Sitemap:

  • https://pro-sitemaps.com/
  • http://www.mysitemapgenerator.com/

Если вы видите большую загрузку своего сервера, то можно воспользоваться директивой «Crawl-delay». Она задаст время в миллисекундах, между загрузками двух страниц. Добавлять директиву «Crawl-delay» нужно сразу после “User-agent”.

User-agent: * Crawl-delay: 3.5 # задает таймаут в 3.5 секунды

Вообще менять файл robots.txt на сайте WordPress это работа творческая. Каждый файл robots.txt должен быть индивидуальным и отвечать вашим личным требованиям к поисковикам.

Файл robots.txt для wordpress: пример

Приведу, как мне кажется, разумный Файл robots.txt для wordpress. Закрываем от роботов, кроме всего прочего, рубрики (category), архивы автора (autor), и страница (page).

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: */trackback Disallow: */comments Disallow: /*.php Sitemap: http://ваш_сайт.ru/sitemap.xml.gz Sitemap: http://ваш_сайт.ru/sitemap.xml User-agent: Yandex Disallow: /cgi-bin #блокирует доступ к страницам начинающихся с "/cgi-bin" Disallow: /wp-admin/ #блокирует доступ к содержимому папки wp-admin Disallow: /wp-includes/ Disallow: /wp-content/plugins/ #блокирует содержимое папки plugins в каталоге wp-content Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-trackback #блокирует доступ к страницам начинающихся с wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/ Disallow: /author/ Disallow: /page/ Disallow: */trackback Disallow: */comments Disallow: /*.php Host: ваш_сайт.ru Sitemap: http://ваш_сайт/sitemap.xml

…мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект.

Пояснения к файлу

Этот файл robots.txt для wordpress содержит выделенную инструкцию для поисковика Яндекс. В эту часть файла добавлена специальная директива Host, которая читается только ботами Яндекс и определяет основное зеркало сайта. Двух директив Host в файле robots.txt быть не должно.

В этом примере файла robots.txt закрыто для поисковиков все содержание папок: wp-admin, wp-includes, plugins, cashe, themes, autor, category. Если не хотите закрывать от поисковиков архивы статей, авторов и категории уберите строки (директивы), которые я зачеркнул. Закрыта индексация страниц wordpress («на любителя»). Добавлены карты сайта.

Приведенный Файл robots.txt является частным и сделан для индивидуальных требований.

User-Agent: * Disallow: /wp-content/plugins/

Повторюсь и выделю, нет уникальных файлов robots.txt. Продумайте, что нужно именно вам закрыть от поисковиков или оставьте файл robots.txt для wordpress по умолчанию. Частые манипуляции с файлом robots.txt, будут лихорадить вашу выдачу в индексе поисковиков.

Полезные ссылки

  • Robots для Google: https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=ru
  • Robots для Яндекс: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#crawl-delay

На этом про файл robots.txt для wordpress почти всё!

Дополнения от Google 2019 года

01-07-2019 года Google объявил, что протокол robots.txt становится единым стандартом Интернет и в связи с этим, изменяются некоторые правила обработки Google файла robots.txt и правила его составления.

  • Термин «запись» заменяется на общий термин «строка» или «правило».
  • Google устанавливает максимальный размер файла robots.txt в 500 кибибайт (КиБ). Контент сверх этого лимита игнорируется. 1 кибибайт равен 1024 байта.
  • Поисковик не обрабатывает элементы с простыми ошибками или опечатками.
  • Роботы Гугл делают минимум 5 переходов в цепочке переадресаций, если файл robots.txt не удается получить сразу. Если в результате файл robots.txt не обнаруживается, роботы Google интерпретируют это как ошибку 404.
  • Файл robots.txt должен располагаться в каталоге верхнего уровня хоста и быть доступным при использовании нужного протокола и номера порта. Google поддерживает все протоколы в том числе HTTP и HTTPS.
  • URL файла robots.txt чувствителен к регистру.
  • Формальный синтаксис файла robots.txt соответствует дополненной форме Бэкуса – Наура (ABNF) и включает символы UTF-8.
  • Файл должен содержать обычный текст в кодировке UTF-8 и состоять из строк, разделённых символами CR, CR/LF или LF.
  • Каждая действительная строка состоит из поля, двоеточия и значения. Использовать пробелы НЕ обязательно, но рекомендуется для удобства чтения.
  • Комментарии можно размещать в любом месте файла, закрывая их символом #(решётка). После этого символа до конца строки контент расценивается как комментарий и игнорируется.

Дополнение

Интересен файл robots.txt от seogio.ru с очень подробными пояснениями.

User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru

Заключение

Файл robots.txt для wordpress создаётся под конкретный сайт и конкретные задачи. Приведенные примеры файлов лишь дают представление, как файл составить и это рекомендации по его составлению. Хотя рекомендации правильные и заслуживают внимания.

Например, вот такой robots.txt используют на сайте ru.wordpress.org:

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php User-agent: * Disallow: /search Disallow: /support/rss Disallow: /archive/

Приветствую, друзья! В этом уроке мы поговорим о создании файла robots.txt , который показывает роботам поисковых систем, какие разделы Вашего сайта нужно посещать, а какие нет.

Фактически, с помощью этого служебного файла можно указать, какие разделы будут индексироваться в поисковых системах, а какие нет.

Создание файла robots.txt

1. Создайте обычный текстовый файл с названием robots в формате .txt .

2. Добавьте в него следующую информацию:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= Host: site.com Sitemap: http://site.com/sitemap.xml

3. Замените в в текстовом файле строчку site.com на адрес Вашего сайта .

4. Сохраните изменения и загрузите файл robots.txt () в корневую папку Вашего сайта.

5. Готово.

Для просмотра и скачки примера, нажмите кнопку ниже и сохраните файл (Ctrl + S на клавиатуре).

Разбираемся в файле robots.txt (директивы)

Давайте теперь более детально разберем, что именно и зачем мы добавили в файл robots.txt.

User-agent — директива, которая используется для указания названия поискового робота. С помощью этой директивы можно запретить или разрешить поисковым роботам посещать Ваш сайт. Примеры:

Запрещаем роботу Яндекса просматривать папку с кэшем:

User-agent: Yandex Disallow: /wp-content/cache

Разрешаем роботу Bing просматривать папку themes (с темами сайта):

User-agent: bingbot Allow: /wp-content/themes

Allow и Disallow — разрешающая и запрещающая директива. Примеры:

Разрешим боту Яндекса просматривать папку wp-admin:

User-agent: Yandex Allow: /wp-admin

Запретим всем ботам просматривать папку wp-content:

User-agent: * Disallow: /wp-content

В нашем robots.txt мы не используем директиву Allow, так как всё, что не запрещено боту с помощью Disallow — по умолчанию будет разрешено.

Host — директива, с помощью которой нужно указать главное зеркало сайта, которое и будет индексироваться роботом.

Sitemap — используя эту директиву, нужно указать путь к . Напомню, что карта сайта является очень важным инструментом при продвижении сайта! Обязательно указывайте её в этой директиве!

Если остались какие-то вопросы — задавайте их в комментарий. Если же информации в этом уроке для Вас оказалось недостаточно, рекомендую почитать подробнее о всех директивах и способах их использования перейдя по этой ссылке .

Приветствую, друзья! В этом уроке мы поговорим о создании файла robots.txt, который показывает роботам поисковых систем, какие разделы Вашего сайта нужно посещать, а какие нет. Фактически, с помощью этого служебного файла можно указать, какие разделы будут индексироваться в поисковых системах, а какие нет. Создание файла robots.txt 1. Создайте обычный текстовый файл с названием robots в формате.txt. 2. Добавьте в него следующую информацию: User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes…

Зачем создавать файл robots.txt для сайта, размещенного на WordPress, и каким образом его лучше настроить? Неправильное использование этого файла может повредить индексации сайта и его продвижению в поисковых системах.

Корректная настройка избавит от дублей страниц и скроет ненужные страницы из результатов поиска.

Самый простой пример файла robots.txt для WordPress, который закрывает только администраторскую панель:

Где находится стандартный файл настроек роботс в WP?

Стандартный установщик Вордпресс не содержит файл роботс. Поэтому после установки CMS Вам потребуется создать его самостоятельно. В нашей статье вы найдете исчерпывающую информацию о всех командах, которые содержатся в этом файле. Также мы предлагаем Вам готовый работающий код для этого файла - вам достаточно скопировать его в свой файл роботс. Все что вам нужно сделать - создать свой файл, скопировать в него код, и добавить его в корневую папку Вашего сайта. После этого проверьте его коррекность для поисковых систем по нашей инструкции.

Виртуальный хостинг сайтов для популярных CMS:

Пример файла robots.txt, который вы можете использовать на своем сайте.

Вы можете выделить этот код и вставить на свой wordpress-сайт, заменив ссылки в разделе Host и Sitemap на адрес своего сайта.

Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: http://site.ru/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt представляет собой простой текстовый файл, который вы можете создать в любом текстовом редакторе. Все инструкции, которые используются в robots.txt приводят к одному из трех результатов:

  1. Разрешение индексации – поисковые роботы могут просканировать весь контент.
  2. Полный запрет индексации – ничего из содержания сайта не будет сканироваться.
  3. Условное разрешение – задаются определенные директивы, которые указывают возможность сканирования конкретных папок и файлов.

Часто возникают разногласия по поводу того, что следует помещать в файл robots.txt. Имейте в виду, что этот файл не предназначен для решения проблем безопасности веб-сайта, поэтому если требуется закрыть роботам доступ к частному контенту, необходимо защитить паролем область, где хранится такая информация .

Как правило, файл robots.txt призван служить руководством для поисковиков, но они могут и не соблюдать эти инструкции. Вариант файла robots.txt приведен на скриншоте.

Давайте разберем, какие функции выполняет каждая строка в этом файле. Директива User-agent обозначает группу инструкций, предназначенных одному роботу или всем сразу. Существует два варианта ее применения:

  1. Если всем роботам задаются одинаковые указания, ставится знак звездочки (строка 1);
  2. если указано имя конкретного бота, то условия будут применимы только к нему (строка 15).

Разработчиками Яндекса отмечается, если в User-agent напрямую указан робот этой поисковой системы, то следует повторить в этом разделе те же общие инструкции, что используются для других поисковых роботов (строки 15-24). В противном случае роботом Яндекса будут учитываться только те команды, которые прописаны для него явно и проигнорируются остальные.

Disallow

Директива Disallow информирует роботов, какие директории не требуется индексировать. Например, если нужно, чтобы поисковики не индексировали фотографии на сайте, поместите файлы с этими фотографиями в одну папку и закройте к ней доступ.

Для сайта, созданного на WordPress, обязателен запрет на индексацию админки, то есть папки wp-admin. Дополнительно можно запретить индексацию рубрик, архивов и тэгов, хотя при использовании SEO-плагинов на WordPress эти запреты устанавливаются в настройках плагинов. В приведенном примере также от возможного попадания в индекс закрыты папки шаблона и кешированного контента.

Allow

Директива Allow позволяет сообщить роботу, что он может увидеть файл в папке, запрещенной другими инструкциями. В примере этой директивы нет, т.к. этот файл работает по принципу «что не запрещено – то разрешено».

Host и Sitemap

Директива Host сообщает об адресе основного зеркала сайта. Команда Sitemap предназначена для любых роботов, она отмечает расположение xml-файла со структурой сайта и облегчает индексацию страниц поисковиками.

Куда загружать файл robots.txt в WordPress

При отсутствии на сайте файла robots.txt, следует его создать. Можно использовать программу «Notepad++» в среде Windows или «TextEdit» для Mac.

  1. Создайте новый текстовый файл, запишите нужные директивы и сохраните на компьютере под названием robots.txt.
  2. Подключитесь к серверу хостинга через файловый менеджер и скопируйте в корневой каталог (1) веб-сайта файл robots.txt (2).
  3. В адресной строке наберите /robots.txt сразу после названия домена и убедитесь, что содержимое файла отображается браузером. Если вы используете поддомены, нужно создавать robots.txt для каждого поддомена.

Проверка роботс тхт Яндексом и Google - правильно ли работает файл?

Рекомендуется протестировать файл robots.txt, чтобы проверить, что он работает именно таким образом, как ожидается от помещенных в него инструкций. Перед анализом, убедитесь, что сайт зарегистрирован в инструментах веб-мастера, которые предлагаются поисковиками Google и Яндекс.

Для проверки Яндексом перейдите в кабинет веб-мастера по ссылке https://webmaster.yandex.ru . Выберите меню «Инструменты» и подменю «Анализ robots.txt».
Чтобы проверить файл в Google пройдите по ссылке https://www.google.com/webmasters/tools . В меню «Сканирование» нужно выбрать пункт «Инструмент проверки файла robots.txt».

Обе системы позволяют отправить файл robots.txt на проверку, после чего выдают результаты анализа и сообщения об ошибках, если они были обнаружены.

Для чего нужен robots.txt на вордпресс сайте?

Файл robots.txt – обыкновенный текстовый документ, размещенный на веб-сервере, он сообщает поисковым роботам о доступе к разделам сайта. При использовании этого файла можно задавать инструкции, например, запретить поисковикам индексировать служебные файлы и категории сайта, указать основную версию сайта и путь к карте сайта в формате xml. Прежде чем поисковик проиндексирует сайт, на него зайдет робот, например, Googlebot или Yandex, и просканирует файл robots.txt на предмет команд о том, какие страницы разрешено посещать и сохранять в результатах поиска.

Чтобы проверить, имеется ли на сайте файл robots.txt, задайте в адресной строке /robots.txt сразу после названия домена. В случае когда этот файл отсутствует, роботы-поисковики обладают полным доступом к вашему сайту. При этом в выдаче поиска могут оказаться ссылки на админпанель и вся информация, которую следует скрыть от посторонних. В связи с этим выделяют ряд причин, по которым потребуется использование файла robots.txt:

  • На сайте есть контент, который вы хотите заблокировать от показа в поисковых системах, например, дубли страниц или результаты внутреннего поиска по сайту, личный кабинет пользователя или корзина покупателя.
  • Вы хотите точно настроить доступ к сайту для известных роботов.
  • Вы используете платные ссылки или рекламные объявления, требующие специальных инструкций для роботов.
  • Вы разрабатываете сайт в режиме реального времени, но пока не хотите, чтобы поисковые системы индексировали его.
  • Вы хотите сообщить поисковым роботам, где расположен файл навигации по сайту sitemap.

Каждая из этих ситуаций может быть исправлена разными способами, однако настройка файла robots.txt поможет реализовать их все сразу в одном месте, поскольку большинство веб-мастеров имеют доступ к сайту, необходимый для создания и использования файла robots.txt.

Загрузка...