Как сделать текстовый файл роботов, дружественных к SEO

  1. Найдите это правильно
  2. Используйте это или нет
  3. Указание ботов
  4. Рассмотрим Отказы
  5. Запрет учетных записей пользователей и конфиденциальных папок
  6. О разрешающей команде
  7. Примечание об индексации
  8. Руководство по SEO для Robots.txt
  9. Автор Джеймс Парсонс

С самого начала Google - и другим поисковым системам, которые следовали, росли, жили или умирали - требовался какой-то способ поиска страниц для индексации

С самого начала Google - и другим поисковым системам, которые следовали, росли, жили или умирали - требовался какой-то способ поиска страниц для индексации. На старте Google использовал ручное кормление с персоналом сотрудников. Однако, учитывая размеры и масштабы Интернета, это было практически невозможно. Вместо этого они разработали поисковые роботы, веб-пауки, программные сканеры; сущности, которые мы называем роботами сегодня.

Чтобы ограничить поведение этих роботов - сказать им, что делать и чего не следует делать на данном сайте - был создан протокол исключения роботов. Первоначально созданный в 1994 году, он был обновлен с недавнего времени и теперь включает новый атрибут rel = nofollow.

Как правильно использовать файл robots.txt?

Найдите это правильно

Когда поисковая система crawler посещает ваш сайт самое первое, что он делает, это убирает URL и ищет файл robots.txt. Поэтому, если робот нашел ссылку на ваш сайт, www.example.com/blog-post-category/blog-title/ на другом сайте и проследовал за ним, его первое действие - удалить все из этого URL, оставив его с www .example.com. Получив этот голый URL, он добавляет в конец файл robots.txt для поиска файла; www.example.com/robots.txt. Это единственное допустимое расположение для файла robots.txt. Если вы разместите его где-нибудь еще на вашем сайте, поисковая система не найдет его.

Используйте это или нет

Рассмотрим эти три сценария:

1. У вас нет файла robots.txt вообще.
2. У вас есть файл robots.txt, но он пуст.
3. У вас есть файл robots.txt с двумя строками: подстановочный знак в User-agent и ничто в запрете.

txt с двумя строками: подстановочный знак в User-agent и ничто в запрете

Все эти три сценария работают одинаково. Когда поисковый робот заходит на ваш сайт, он ищет файл robots.txt. Если он ничего не находит, находит его пустым или находит его без каких-либо запрещенных действий, робот может свободно проанализировать весь ваш сайт. Ничто не будет скрыто или запрещено от индексации. Если это хорошо для вас - или если вы используя директивы noindex на странице Вы можете не использовать файл robots.txt. Однако рекомендуется иметь хотя бы базовый файл robots.txt, так что вы можете включить его без каких-либо запретов.

Как дополнительное примечание: robots.txt чувствителен к регистру. Robots.TXT не является допустимым именем файла для ваших директив.

Указание ботов

Первая строка в вашем robots.txt Файл обычно «User-agent: *». Эта строка указывает на бота, которым вы управляете. * - это подстановочный знак, означающий, что любая следующая директива применяется к каждому роботу, который посещает ваш сайт. Почти каждый сайт будет использовать одну строку агента пользователя с подстановочным знаком, а не указывать директивы для отдельных ботов. Это связано с тем, что вы можете указать сотни ботов, и попытка направить их поведение по отдельности - это быстрый способ раздувать ваш файл и тратить ваше время.

Вы можете указать определенных ботов, если вы не хотите, чтобы ваш сайт отображался в определенных поисках, хотя случаи, когда вы можете захотеть сделать это, редки.

Рассмотрим Отказы

Любая строка в вашем файле robots.txt, которая следует за строкой user-agent, обычно начинается с Disallow :. Все, что следует за: это путь, который вы указываете поисковым системам, чтобы не индексировать. Например:

• Disallow: / etc скажет поисковым системам игнорировать что-либо в папке / etc.
• Disallow: / photos скажет поисковым системам игнорировать что-либо в папке / photos.
• Disallow: / скажет поисковым системам игнорировать все на вашем сайте.

Большинство основных файлов robots.txt сообщают поисковой системе игнорировать некоторые каталоги, которые не нужны для отображения или содержания вашего сайта, но должны присутствовать для работы внутренних систем. Папки типа / cgi-bin / и / tmp / попадают в эту категорию.

Запрет учетных записей пользователей и конфиденциальных папок

Запрет учетных записей пользователей и конфиденциальных папок

Если, например, у каждого пользователя на вашем сайте есть собственная подпапка, вы можете запретить эти папки по умолчанию. Запись для этого может быть Disallow: / ~ имя пользователя /. Это говорит поисковым паукам игнорировать что-либо в этой папке пользователя. Вы также можете запретить: / конфиденциально / скрыть любые конфиденциальные документы, которые вы не хотите индексировать в Интернете.

В этом плане есть один огромный недостаток; ваш файл robots.txt общедоступен. Должно быть, веб-боты найдут его и используют. Это означает, что любой может посетить ваш сайт и увидеть файл robots.txt в виде открытого текста. Если вы запрещаете конфиденциальные папки документов или профили пользователей, эти строки URL-адреса отображаются в вашем текстовом файле, что позволяет пользователям следить за ними и просматривать ваши документы.

Никогда не используйте команды disallow в качестве единственного средства защиты ваших файлов. По крайней мере, вы должны также поместить эти папки за паролем, чтобы средний неавторизованный пользователь не мог получить к ним доступ.

О разрешающей команде

Если есть запрет, должно быть разрешение, верно? Ну да и нет. Существует команда allow, но ее соблюдают только Google и несколько других ботов. Большинству ботов это безразлично; они рассматривают отсутствие запрета как разрешение на индексирование.

Когда вы можете использовать команду allow? Скажем, у вас есть папка с документами / docs /. В нем полно документов, которые вы не хотите видеть в Интернете в целом, но в этой папке есть один документ, который вы хотите отправить и проиндексировать, /sharedoc.txt. Правильный синтаксис, позволяющий Google видеть этот файл:

• Пользователь-агент: *
• Disallow: / docs /
• Разрешить: /docs/sharedoc.txt

Это действительно работает только для Google и не должно использоваться на вашем сайте. В общем, вы хотите использовать позволить экономно или не использовать вообще.

Примечание об индексации

Примечание об индексации

Поисковые системы будут переходить по ссылкам и записывать, что они перешли по этим ссылкам Команда disallow только сообщает поисковым системам, что не следует продолжать и индексировать содержимое страниц в данном каталоге. Disallow: / sharedocs / скажет поисковой системе игнорировать содержимое этой папки, но все равно заметит, что папка существует. На этой странице все еще могут накапливаться PageRank и входящие ссылки, но она не может их передавать.

Если вы хотите, чтобы страница была функционально невидимой для поисковых систем, вам нужно используйте мета-команду noindex на странице вместо. Это исключает ссылки на результаты поиска, а также содержание страницы.

Кроме того, вредоносные веб-сканеры будут игнорировать ваши директивы robots.txt. Это означает, что это не инструмент безопасности, это просто инструмент для контроля того, что видят Google и другие законные сканеры.

Руководство по SEO для Robots.txt

иметь robots.txt. Отсутствие одного не дает вам никакого контроля.
• Используйте подстановочный знак для директив бота. Нет смысла указывать другое поведение.
Никогда не запрещайте весь ваш сайт. Disallow: / удерживает ваш сайт вне рейтинга и уничтожает любой прогресс, который вы можете иметь в рейтинге.
• Запретить ненужные каталоги. Все, включая системные файлы или файлы, которые вы не хотите индексировать, должно быть запрещено.
• Для отдельных страниц пропустите robots.txt и используйте вместо него meta noindex.

Создать файл robots.txt очень просто, или вы можете создать его с помощью онлайн-инструмента.

Автор Джеймс Парсонс

Джеймс Парсонс - блогер и маркетолог, а также генеральный директор Pagelift. Когда он не пишет в его личный блог или для HuffPo , Inc , или же предприниматель Он работает над своим следующим крупным проектом.

Txt?
Когда вы можете использовать команду allow?

Вход