Каждый раз, когда поисковый робот заходит на ваш сайт, он первым делом запрашивает два файла: robots.txt и sitemap.xml. Первый сообщает краулеру, что можно сканировать, а что — нет. Второй показывает полный список страниц, которые вы хотите видеть в поиске. Вместе они формируют основу технического SEO и напрямую влияют на то, как быстро и полно ваш сайт появится в результатах поиска.
Что такое robots.txt и как он работает
Файл robots.txt размещается в корне домена: https://example.com/robots.txt. Это обычный текстовый файл, который поисковые системы читают перед началом сканирования. Он написан по стандарту Robots Exclusion Protocol и понимается всеми крупными краулерами — Googlebot, Yandex, Bingbot и другими.
Важно понимать: robots.txt — это рекомендация, а не барьер. Добросовестные поисковики её соблюдают, но закрытая страница не исчезает из индекса, если на неё ведут внешние ссылки. Для реального скрытия страниц используйте мета-тег noindex.
Основные директивы robots.txt
| Директива | Что делает | Пример |
|---|---|---|
| User-agent | Указывает, для какого робота применяются правила. * — для всех. |
User-agent: Googlebot |
| Disallow | Запрещает сканирование указанного пути или всего сайта. | Disallow: /admin/ |
| Allow | Разрешает доступ к пути внутри закрытого раздела. | Allow: /admin/public/ |
| Sitemap | Сообщает роботу адрес карты сайта. | Sitemap: https://example.com/sitemap.xml |
| Crawl-delay | Задаёт паузу (в секундах) между запросами робота. Google игнорирует, Yandex соблюдает. | Crawl-delay: 2 |
Типичные ошибки в robots.txt
Даже опытные разработчики периодически допускают критические промахи при настройке этого файла.
- Disallow: / — одна из самых опасных ошибок. Закрывает весь сайт для всех роботов. Нередко появляется случайно при переносе сайта с тестового домена.
- Закрытие папки
/images/— Google не сможет индексировать изображения для Google Images и visual-поиска. - Блокировка CSS и JS файлов — поисковик не поймёт, как выглядит страница, и занизит её в выдаче.
- Отсутствие директивы
Sitemap— карта сайта не будет обнаружена автоматически. - Конфликтующие правила без приоритизации — Allow и Disallow для одного пути у одного User-agent создают неопределённость.
«Файл robots.txt — первое, что проверяет SEO-аудитор. Если он закрывает нужные разделы, весь остальной аудит теряет смысл: страницы просто не попадут в индекс.»
Что такое sitemap.xml и зачем он нужен
Sitemap.xml — это XML-документ, содержащий список URL вашего сайта с дополнительными метаданными: датой последнего изменения, приоритетом страницы и частотой обновления. Он помогает поисковым системам быстрее обнаруживать новые и обновлённые страницы, особенно на крупных сайтах с глубокой вложенностью или слабой внутренней перелинковкой.
Sitemap особенно важен в трёх случаях:
- Новый сайт без внешних ссылок — краулер иначе может не найти большинство страниц.
- Интернет-магазин с тысячами товаров — без карты роботу потребуется значительно больше времени на полный обход.
- Сайт с изолированными разделами, на которые нет внутренних ссылок с главных страниц.
Файл подключается через директиву Sitemap в robots.txt и отдельно отправляется в Google Search Console и Яндекс.Вебмастер.
Как проверить robots.txt и sitemap
После настройки обязательно убедитесь, что файлы корректны и не блокируют важные страницы. Используйте проверку robots.txt и sitemap — инструмент покажет ошибки доступности, предупредит о потенциально закрытых разделах и проверит структуру карты сайта. Среди других инструментов вы также найдёте проверку заголовков сервера и анализ мета-тегов.
Корректные robots.txt и sitemap.xml — это не разовая настройка, а регулярная задача технического сопровождения. Проверяйте их после каждого крупного изменения структуры сайта, переезда на новый домен или внедрения новых разделов.
Комментарии (0)