User-agent: * # общие правила для роботов
Disallow: /cgi-bin # папка на хостинге
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /?wp-
# все параметры запроса на главной
Disallow: /?
Disallow: *?
Disallow: /*?
Disallow: *?*
# поиск
Disallow: /?s
Disallow: /?s=
Disallow: *?s=
Disallow: *&s=
Disallow: /search
Disallow: /search/
#различные варианты дублей контента (исключаем дубли контента)
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Disallow: *replytocom #replytocom – это дубли страниц, которые появляются при включении древовидных комментариев (надо их запрещать иначе пойдут дубли)
Disallow: /author/ # архив автора
Disallow: /users/ # архив авторов
Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой ссылки на статью
Disallow: */trackback/
Disallow: */feed # все фиды
Disallow: */feed/
Disallow: /?feed=
Disallow: */rss # rss фид
Disallow: */embed # все встраивания
Disallow: */page/* # страницы пагинации
Disallow: */attachment/* # все вложения (файлы к комментариям и т.п.)
Disallow: *?attachment_id=
# различные системные файлы
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /template.html
Disallow: /xmlrpc.php # файл WordPress API
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, правило можно удалить)
# технические страницы они шаблонные и чтобы небыло пересечений их лучше не вгонять в индекс поисковиков
Disallow: /o-sayte # о сайте
Disallow: /kontakty # контакты
Disallow: /pravoobladatelyam # правообладателям
Disallow: /deklaratsiya-o-pravah # декларация о правах пользователей
Disallow: /politika-obrabotki-personalnyx-dannyx # политика обработки персональных данных
Disallow: /razdet-po-foto # nudeAI
Disallow: /dickpicpro # DickPicPro
#(боты которые слишком напрягают работу сайта) | закрываем от них сайт
# --------------------------------------------------------------------------------------------------
# правила для MJ12bot
User-agent: MJ12bot
Disallow: /
# правила для Common Crawl
User-agent: CCBot
Disallow: /
# --------------------------------------------------------------------------------------------------
# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: https://snaked.info/sitemap.xml
# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: https://snaked.info