robots.txt и sitemap.xml: как настроить индексацию сайта

robots.txt и sitemap.xml: как настроить индексацию сайта

Каждый раз, когда поисковый робот заходит на ваш сайт, он первым делом запрашивает два файла: robots.txt и sitemap.xml. Первый сообщает краулеру, что можно сканировать, а что — нет. Второй показывает полный список страниц, которые вы хотите видеть в поиске. Вместе они формируют основу технического SEO и напрямую влияют на то, как быстро и полно ваш сайт появится в результатах поиска.

Что такое robots.txt и как он работает

Файл robots.txt размещается в корне домена: https://example.com/robots.txt. Это обычный текстовый файл, который поисковые системы читают перед началом сканирования. Он написан по стандарту Robots Exclusion Protocol и понимается всеми крупными краулерами — Googlebot, Yandex, Bingbot и другими.

Важно понимать: robots.txt — это рекомендация, а не барьер. Добросовестные поисковики её соблюдают, но закрытая страница не исчезает из индекса, если на неё ведут внешние ссылки. Для реального скрытия страниц используйте мета-тег noindex.

Основные директивы robots.txt

Директива Что делает Пример
User-agent Указывает, для какого робота применяются правила. * — для всех. User-agent: Googlebot
Disallow Запрещает сканирование указанного пути или всего сайта. Disallow: /admin/
Allow Разрешает доступ к пути внутри закрытого раздела. Allow: /admin/public/
Sitemap Сообщает роботу адрес карты сайта. Sitemap: https://example.com/sitemap.xml
Crawl-delay Задаёт паузу (в секундах) между запросами робота. Google игнорирует, Yandex соблюдает. Crawl-delay: 2

Типичные ошибки в robots.txt

Даже опытные разработчики периодически допускают критические промахи при настройке этого файла.

  • Disallow: / — одна из самых опасных ошибок. Закрывает весь сайт для всех роботов. Нередко появляется случайно при переносе сайта с тестового домена.
  • Закрытие папки /images/ — Google не сможет индексировать изображения для Google Images и visual-поиска.
  • Блокировка CSS и JS файлов — поисковик не поймёт, как выглядит страница, и занизит её в выдаче.
  • Отсутствие директивы Sitemap — карта сайта не будет обнаружена автоматически.
  • Конфликтующие правила без приоритизации — Allow и Disallow для одного пути у одного User-agent создают неопределённость.
«Файл robots.txt — первое, что проверяет SEO-аудитор. Если он закрывает нужные разделы, весь остальной аудит теряет смысл: страницы просто не попадут в индекс.»

Что такое sitemap.xml и зачем он нужен

Sitemap.xml — это XML-документ, содержащий список URL вашего сайта с дополнительными метаданными: датой последнего изменения, приоритетом страницы и частотой обновления. Он помогает поисковым системам быстрее обнаруживать новые и обновлённые страницы, особенно на крупных сайтах с глубокой вложенностью или слабой внутренней перелинковкой.

Sitemap особенно важен в трёх случаях:

  1. Новый сайт без внешних ссылок — краулер иначе может не найти большинство страниц.
  2. Интернет-магазин с тысячами товаров — без карты роботу потребуется значительно больше времени на полный обход.
  3. Сайт с изолированными разделами, на которые нет внутренних ссылок с главных страниц.

Файл подключается через директиву Sitemap в robots.txt и отдельно отправляется в Google Search Console и Яндекс.Вебмастер.

Как проверить robots.txt и sitemap

После настройки обязательно убедитесь, что файлы корректны и не блокируют важные страницы. Используйте проверку robots.txt и sitemap — инструмент покажет ошибки доступности, предупредит о потенциально закрытых разделах и проверит структуру карты сайта. Среди других инструментов вы также найдёте проверку заголовков сервера и анализ мета-тегов.

Корректные robots.txt и sitemap.xml — это не разовая настройка, а регулярная задача технического сопровождения. Проверяйте их после каждого крупного изменения структуры сайта, переезда на новый домен или внедрения новых разделов.

Читайте также

Комментарии (0)
Войдите или создайте учетную запись, чтобы оставлять комментарии