На SEO-жаргоне его еще называют "сопливым индексом" из-за созвучности с "Supplemental Index". Продолжая проводить SEO-эксперименты над своим блогом, добрался до этапа избавления от "соплей". Он у меня проходит с попеременным успехом, было довел процент страниц в основном индексе почти до 55%, как Google на моем сайте где-то нашел 500 страниц и закинул их в дополнительный индекс, в результате у меня 34% страниц в основном индексе. Решил накопленные знания в ходе этой "борьбы" как-то систематизировать. Пост будет обновляться.
Что такое дополнительный индекс (сопли)?
В поисковике Google есть два типа индекса основной и дополнительный (Google Supplemental Index). Скорее всего есть и другие типы индекса, но эта статья посвящена именно "основному" и "дополнительному" индексу. В дополнительный индекс попадают страницы сайта, которые не несут какой-либо ценности для поисковика. Страницы из дополнительного индекса отображаются в поиске в самую последнюю очередь, если кроме этих страниц нет чего-либо подходящего по поисковому запросу.
Чем плох дополнительный индекс?
- Страницы находящиеся в этом индексе почти не дают посещений с поисковых запросов.
- Поисковики индексируют сайты частями, для этого отводиться их лимитированный ресурс, например заходя на ваш сайт поисковик намерен проиндексировать 1000 страниц и пойти дальше, к следующему сайту. Обидно если поисковик этот лимит потратит на страницы, которые не несут какой-либо ценности, вместо того, чтоб потратить их на более ценные страницы. Мало того...
- Если страницы находятся в дополнительном индексе Google, значит они бесполезны, логично предположить что и для Яндекса они тоже ценность не несут, только вот Яндекс за такие страницы, если их у вас очень много, может вообще весь сайт исключить из индекса - зачем поисковой машине тратить свое время и усилия на индексацию сайта у которого очень большой процент страниц не имеющих ценность?
- Ну и конечно, для людей, которых интересуют SEO-показатели, сайты имеющие меньший процент страниц в дополнительном индексе будут больше котироваться, чем сайты с большим процентом страниц в дополнительном (сопливом) индексе.
Какие страницы попадают в дополнительный индекс?
Повторюсь в сопливый индекс попадают страницы не несущие какой-либо ценности для поисковика, то есть:
- Дублированный контент на сайте (дубли)
- Неуникальный контент
- Страницы с отсуствующими или повторяющимися Title, Description
- Страницы с минимумом контента
- Не тематические страницы, относительно тематики сайта, которые еще не набрали вес.
и т.д. и т.п.
Как узнать сколько страниц в дополнительном индексе?
Тут все относительно просто. Покажу на примере моего блога. Запрос в гугле
site:elims.org.ua/&
Покажет сколько страниц в основном индексе, сейчас их "About 558 results".
Запрос без знаков "/&", покажет сколько страниц всего в индексе:
site:elims.org.ua
Сейчас у меня в индексе всего "About 1,660 results". Выходит у меня 1660-558=1102 страниц в дополнительном индексе. В основном индексе у меня 34% страниц. Честно говоря, это не такой уж и плохой результат. Если же у вас более 50% страниц в основном индексе, то это уже считается хорошим достижением.
Следующий вопрос конечно будет "А как мне посмотреть какие именно страницы в дополнительном индексе?". Тут уже не все так просто, раньше это можно было выяснить с помощью такого запроса:
site:elims.org.ua -site:elims.org.ua/&
То есть показать все страницы в индексе, за исключением страниц из основного индекса. Но сейчас такой запрос не работает.
Я догадался выйти из ситуации другим методом. Разобьем сайт на части и проверим в какой из этих частей больше всего страниц в сопливом индексе. Например если вы увлекаетесь тегами, то таких страниц в сопливом индексе должно быть достаточно много, так как там дублирующийся контент, а если еще страница с тегом указывает только на одну-две статьи, то этого контента раз-два и обчелся. Под страницей с тегами подразумеваю страницы с такими адресами: elims.org.ua/blog/tag/span/
Итак, запрос "site:elims.org.ua inurl:/blog/tag/" показал 254 результата, а запрос "site:elims.org.ua/& inurl:/blog/tag/" - 3 результата. Выходит 251 страница с тегами основного подблога "/blog/" находится в сопливом индексе. Теперь я знаю над чем можно поработать. По аналогии можно проинспектировать остальные части сайта.
Как избавится от дополнительного индекса?
Есть несколько способов:
- Избавится от страниц не имеющих ценность
- Закрыть от индексации через robots.txt
- Закрыть от индексации через мета-тег robots
- Закрыть от индексации через http заголовки X-Robots-Tag
- Атрибут rel="canonical"
- Инструмент для вебмастеров "Параметры URL"
- Ручное удаление из панели вебмастеров (самый быстрый метод, но используйте только после того, как выполнили хотя бы один из предыдущих).
Далее распишу эти методы более подробно.
Избавление от страниц не имеющих ценность
Самый верный и правильный метод это избавление от страниц не имеющих ценность. Ведь если все страницы вашего сайта будут ценными от этого выиграют все: вы сами, поисковики, посетители. Какие именно страницы не имеют ценность я уже упоминал, когда говорил из-за чего появляется дополнительный индекс. Возможно это не полный список причин, потому можете не поленится, погуглить и более детально изучить этот вопрос.
По поводу страниц не имеющих ценность приведу свой пример. Я изначально на блоге проставлял теги к статьям абы-как. Вот написал пост о том что купил ролики и присвоил ему тег "ролики". В результате, по прошествии лет, этот тег указывает на всего-лишь один пост. Такой тег не несет никакой ценности ни людям, ни поисковикам. У многих блогеров таких тегов очень много, получается так, что страниц с тегами больше, чем страниц с контентом и эти теги указывают в основном на один единственный пост. Вывод? Удалить к чертям бесполезные теги. Оставить только те, которые действительно выполняют полезную функцию.
Но не обязательно от страниц не имеющих ценности избавляться методом удаления, можно ее содержимое сделать более ценным: дополнить ценным контентом, либо повысить вес страниц с помощью перелинковки (внутренней или внешней). Метод повышения веса страницы правда не всегда работает - пример те же страницы с тегами, на них стоит очень много внутренних ссылок, но они все равно остаются в дополнительном индексе.
Если вы все-таки удаляете страницы, то убедитесь что после удаления сайт отдает 404 или 410 ошибки, либо вообще можете поставить с удаленных страниц 301-й (постоянный) редирект. Иначе поисковики будут думать что страница все еще существует.
Но! Не всегда можно избавиться от страниц не имеющих ценность, например в Интернет-магазинах есть ссылки вида "*/cart/add?category_id=6&product_id=110", которые предназначены для добавления товара в корзину, а сами указывают на ту же страницу, на которой находятся. Выход - запретить индексировать такие страницы.
Запрет индексации в robots.txt
Тут все просто, у вас в корневой папке сайта должен быть файл robots.txt в котором прописан запрет индексации не нужных страниц. На примере моего сайта и страниц с адресами */tag/ это будет выглядеть вот так:
По адресу elims.org.ua/robots.txt должен быть файл, содержащий строки:
User-agent: * Disallow: /tag/ Disallow: */tag/
Таким образом мы запретили всем поисковикам индексировать адреса (каталоги) /tag/ и */tag/.
Чтоб проверить корректность правил в панели вебмастеров Яндекса webmaster.yandex.ua/sites :
- Выберите ваш сайт
- Перейдите в "Настройки индексирования - Анализ robots.txt"
- Загрузите обновленный файл
- Кликните на "добавить" возле надписи "Список URL" и укажите ссылки на страницы, которые нужно проверить на доступность к индексации.
- Нажимайте кнопку "проверить" и читайте результаты
Запрет на индексацию можно проверить и в панели вебмастеров Google google.com/webmasters/tools :
- Выберите ваш сайт
- Перейдите в раздел "Состояние - Заблокированные URL"
- В область для ввода "Содержание http://ваш_сайт/robots.txt: отредактируйте для проверки изменений" введите тестовую конфигурацию robots.txt - она не сохраняется
- В области ввода "URL-адреса Укажите URL-адреса и роботов User Agent для проверки" укажите какие ссылки проверить
- Жмем кнопку "проверить"
- Читаем то, что написано ниже "Результаты проверки".
Но! Этот метод запрета индексации не всегда работает. Вот что по этому поводу говорит сам Google. Я уже около месяца назад запретил индексировать такие адреса:
Disallow: /feed/ Disallow: */feed/
А гугл такие страницы отображает, правда в снипете говорит:
Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
A description for this result is not available because of this site's robots.txt
Указания (директивы) в файле robots.txt google воспринимает как советы, а не как обязательные к исполнению инструкции. Практика известных seo-блогеров показала, что более надежно работает метод с мета-тегом robots.
Еще говорят, что метод с файлом robots.txt работает на 100% если его использовать вместе с ручным удалением ненужных страниц из панели вебмастеров.
Но есть два но:
- google не будет возвращать эту страницу в индекс в течении 90 дней, а дальше как получиться.
- это очень трудозатратный метод если у Вас проиндексировалось много страниц которые вы хотите запретить в robots.txt
- вам придется постоянно проверять не появились ли где ссылки на страницы которые запрещены в robots.txt и удалять их через "ручное удаление"
Запрет индексации в мета-теге robots
Для запрета индексации страницы пропишите в html-коде страницы между тегами head
<meta name="robots" content="noindex" />
В этом вам могут помочь разные SEO-плагины, или поверхностное знание php и редактирование файла header.php в шаблоне, например код на всех страницах рубрики lifehack добавит мета-тег <meta name="robots" content="noindex, nofollow" />:
<?php $page_url = $_SERVER['SERVER_NAME'] . $_SERVER['REQUEST_URI']; if(strpos($page_url,"/blog/category/lifehack/") > 0 ) echo '<meta name="robots" content="noindex, nofollow" />'; ?>
Стоит понимать, что если запретить индексирование страниц в файле robots.txt, то этот запрет будет мешать поисковику увидеть мета-тег <meta name="robots" content="noindex" /> на этих же страницах.
Метод с мета-тегом тоже не всесильный. А что если хочется закрыть от индексации изображения или rss-каналы? Ведь вы знаете что WordPress для каждой страниц создает rss-канал? Добавьте в конец адреса любой страницы "/feed/" и получите поток, то есть можно подписываться на рубрики определенной тематики, на появление новых материалов с тем или иным тегом, на комментарии любого поста и тд.. Так вот rss канал это xml-страница, а не html, потому я понятия не имею куда там вставлять мета-тег "robots"... Поговорим о следующем способе.
Запрет индексации через http заголовки X-Robots-Tag
В этом методе индексация запрещается через добавление http заголовка
X-Robots-Tag: noindex, nofollow
Метод поддерживается гуглом и yahoo.
Добавить этот заголовок можно двумя способами: через файл .htaccess и опять-таки с помощью php-кода, или же с помощью seo-плагинов.
Закрываем изображения от индексации через .htaccess:
<FilesMatch "\.(gif|jpe?g|png)$"> Header set X-Robots-Tag "noindex" </FilesMatch>
PHP-код у меня не заработал, потому приводить пример не буду.
Заголовки страницы можно посмотреть с помощью расширений для браузера или вот такого сервиса: mainspy.ru/otvet_servera
Атрибут rel="canonical"
Вот что об этом атрибуте пишет Google. Если быть кратким, то с помощью этого атрибута поисковикам сообщается какая из нескольких страниц-дублей (находящихся на одном сайте) является оригиналом. Для этого необходимо между тегами <head></head> прописать вот такой код:
<link rel="canonical" href="http://example.com/example-page"/>
Где "http://example.com/example-page" - страница-оригинал.
Например: есть страница elims.org.ua/about и страницы-дубли: elims.org.ua/about/?replytocom=1, elims.org.ua/about/??replytocom=2, elims.org.ua/about/?replytocom=3. Если на странице elims.org.ua/about в разделе <head> будет строка
<link rel="canonical" href="http:/elims.org.ua/about/"/>
То эта же строка будет и на страницах-дублях. А значит если поисковик посетить страницу дубль, то он увидит чьим дублем эта страница является.
Этот тег автоматически добавляется с помощью любого SEO-плагина, например "All in seo pack".
Инструмент для вебмастеров "Параметры URL"
Инструмент предназначен для страниц с параметрами в URL. Вот пример таких URL:
example.com/products/dresses?sessionid=12345
example.com/products/dresses?sessionid=34567
example.com/products/dresses?sessionid=34589
А данном примере параметр у нас "sessionid". Часто бывает что этот параметр никак не влияет на сам контент страницы, то есть он ее не меняет и нужен лишь для служебных целей, например помнить номер сессии для определения авторизованного пользователя.
В панели вебмастеров можно указать что "sessionid" не меняет содержимое страницы, или указать что меняет, но такие страницы включать в индекс не нужно.
Инструмент находиться в панели вебмастеров, выберите ваш сайт и зайдите в меню "сканирование" - "параметры URL".
Рекомендую прочесть справку Google, прежде чем начать использовать этот инструмент.
Ручное удаление через панель вебмастеров
Тут придется попотеть - нужно указывать ссылку на каждую удаляемую страничку, маски не работают. Но этот метод оправдывает старания - гугл убирает страницы из индекса всего-лишь в течении нескольких часов, в отличие от недель и месяцев, если использовать предыдущие методы запрета индексирования.
В панели вебмастеров гугла этот инструмент находится по адресу "Оптимизация - удалить URL-адреса". Создаете запрос и ждите пока их статус поменяется с "Ожидается" на "Удалено".
В панели вебмастеров яндекса этот инструментарий находится по адресу - webmaster.yandex.ua/delurl.xml
Так, как у меня в файле robots.txt уже прописаны запрещающие директивы, то я решил ускорить этот процесс ручным удалением страниц из индекса. Заодно и проверю появятся ли эти страницы в индексе снова.
Какие страницы можно почистить в WordPress:
- */feed/ - в файле functions.php добавляем строку "
remove_action(
'wp_head'
,
'feed_links_extra'
, 3);", это удалит ссылки на все rss-ленты кроме основной.
- */comments/
- */trackback/
- */tag/
- */?replytocom= - появляется при включении древовидных комментариев
- /?p=
- */comment-page-* - появляется при включении разбивки комментариев на страницы
- */author/ - если вы являетесь единственным автором, то это просто дубли страниц главной.
Вместо заключения:
- Данные в панели веб-мастеров обновляются раз в неделю, с воскресенья на понедельник. Это касается даже "самого быстрого метода" - ручного удаления.
- После всех махинаций мне удалось удалить не нужные страницы из индекса, но, как ни странно число результатов выдаваемых по запросу "site:elims.org.ua" не особо изменилось. Правда вручную я удалил только 90 страниц, дальше надоело =) Буду надеяться что проставленные метатеги и запреты в robots.txt через несколько месяцев дадут свой результат.
UPD 2013.07.27:
Прошло более двух месяцев, но страницы /trackback/ /feed/ все равно остаются в поиске, с таким описанием:
Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
A description for this result is not available because of this site's robots.txt
Правда я эти страницы не удалял через инструмент ручного удаления из панели вебмастеров, так как они потом могут снова появиться в поиске через 90 дней. Посему единственно правильный метод, как я думаю, это сначала добиться того, чтоб на вашем сайте не присутствовали ссылки на не нужные страницы, и потом эти страницы удалить через инструмент ручного удаления.
Владимир, а всё же, как самый, уж извините этого слова «простой» способ избавиться от дополнительного (нерелевантного) индекса?
И можете чуть подробнее описать суть дополнительного индекса?
Честно говоря я до сих пор борюсь с этим дополнительным индексом, но думаю борьба на завершающей стадии. так как понял что единственно правильная и надежная стратегия — это просто избавиться от страниц попадающих в дополнительный индекс, удалить их.
Если от таких страниц не получается избавиться, то просто в файле .htaccess установить 301-й редирект с таких страниц, но при этом их не нужно закрывать от индексации. Тогда поисковик, зайдя проиндексировать такую страницу, увидит код редиректа на другую, а значит «плохую» страницу удалит из индекса, а ту, на которую страница переправляется оставит в индексе. Вот я как раз и нахожусь на этом этапе — жду когда поисковик зайдет на ранее запрещенные для индекса страницы и увидит редирект.
Страницы которые находятся в дополнительном индексе скрываются в выдаче за ссылкой с таким текстом: «Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше. Показать скрытые результаты.»
Владимир, а как получить одним большим списком все страницы дополнительного индекса, оказалось их на сайте более 1500 :), не выбирать же их вручную из поиска?
К сожалению не знаю каких-либо методов кроме ручного. На практике такой способ избавления от дополнительного индекса показал себя не эффективным.
Вам же список страниц нужен для того, чтоб добавить их в инструменте удаления страниц из индекса через панель веб-мастеров? Там также нужно добавлять страницы по одной, при этом совершать дополнительно несколько кликов. Слишком трудозатратно. Удаленные таким образом страницы пропадают из индекса в течении несколько часов, но на количестве страниц в дополнительном индексе это не влияет. Думаю это связано с тем, что количество проиндексированых страниц пересчитывается раз в неделю: с воскресенья на понедельник по времени США. Да и меня на много страниц не хватило: первый заход — 100 страниц, второй заход — 200 страниц. Потому существенного снижения количества страниц из дополнительного индекса я не заметил.
Я решил все-таки пойти другим путем — просто не делать так, чтоб у меня на блоге были малоценные страницы =)
По поводу малоценных страниц, тут не поспоришь :)
Ну а если произвести физическое удаление таких страниц с сайта, ориентировочное время удаления из индекса 2-3 месяца получается?
Да, скорее всего. Я как раз провожу тест — замер необходимого времени. 8-го — 10-го числа сделал редиректы с страниц содержащих replytocom (создаются в древовидных комментариях), разрешил индексацию этих страниц и жду пока они пропадут из индекса. Если все будет удачно — сделаю по аналогии остальные страницы и потом планировал написать запись, которая посвящена тому, какие страницы в wordpress можно так исключить из индекса. Хочу добиться чтоб в основном индексе было 80%-100% от все проиндексированых страниц. То есть чтоб было не более 20% дополнительного индекса.
Владимир, возможно есть ещё более простой способ.
Предлагаю поэксперементировать с каноническими тегами.
https://support.google.com/webmasters/answer/139394?hl=ru
Как считаете?
Они у меня используются, посмотрите исходный код страницы =) Также я опробовал еще один метод, который тут не описан, инструмент в панели для вебмастеров — «Параметры URL», эффект тоже не впечатлил.
И правда :)
Странно конечно, что ПС разрабатывают подобные инструменты, а эффект от них не всегда 100%
Так что мне осталось ждать, только когда google соизволит зайти на страницы, которые я раньше запретил в robots.txt, но сейчас уже разрешил.
Владимир, есть успехи?
За прошедшую неделю количество проиндексированных страниц не увеличилось, впервые за последние 9 недель =) Жду понедельника, в надежде что ненужные страницы начнут вылетать из индекса.
Владимир, приветствую.
Какова сейчас ситуация, есть какие-либо изменения?
Приветствую.
За прошедшую неделю количество страниц в индексе не прибавилось. «Ушло» около 20-30 страниц среди ранее заблокированных в robots.txt. То есть значительных подвижек нет, но тенденцию роста количества страниц в индексе, сменила тенденция уменьшения.
Владимир как сейчас ситуация? Уходят ли ненужные страницы из индекса, сколько и как быстро?
Судя по показателям:
Проиндексировано за все время: 4624 (сейчас и неделю назад)
Проиндексировано всего: увеличилось на 12, с 2124 до 2136
Заблокировано в robots: уменьшилось на 6, с 875 до 869 (менял robots.txt)
Удалено: уменьшилось на 2, с 294 до 292 (возвращал в индекс удаленные страницы)
Если же смотреть через такой запрос: «site:elims.org.ua». То вчера и предыдущие несколько дней показывало 2630, еще ранее было более 2700, а сейчас уже 2600.
То есть вроде новых страниц в индекс не было добавлено («проиндексировано за все время» не изменился — этот параметр никогда не уменьшается), но количество страниц в индексе увеличилось («проиндексировано всего», идет перераспределение «заблокированных» и «удаленных» в «проиндексированно всего»), при этом сума основного и дополнительного индекса уменьшилась, процент страниц в основном индексе увеличивается.
Я открываю в robots.txt ранее закрытые от индексации страницы и возвращаю «удаленные» страницы в индекс, для того чтоб поисковик увидел коды 301 или 404 (страница перемещена или удалена) и сам удалил эти страницы из индекса.
Как я понял эти цифры означают что ранее заблокированные для индекса страницы индексируются, обнаруживается ответ 301 или 404 и выкидывается из индекса, только этот процесс происходит очень медленно.
Столь медлительный процесс скорее всего связан с тем, что поисковик крайне редко обращается к страницам, которые ранее были заблокированы robots.txt
Владимир, здравствуйте.
Какая сейчас ситуация, есть ли значительный прогресс?
Здравствуйте. Значительного нет, есть медленная тенденция уменьшения страниц в дополнительном индексе. На данный момент их 2480, то есть за 15 дней «ушло» 120 страниц.
Владимир, доброго времени суток.
Аналогичная ситуация, тоже борюсь с дублями, но в моем случае CMS система позволила это решить тегом robots, т.е. на всех страницах которые после использования какого либо фильтра что видет к изменению урла но не изменению мета данных стоит сейчас noindex, follow (follow для того что бы боту удобно было добраться до товаров находящих например в конце пейджинации). Вопрос: использовали ли вы тег и если да то как быстро результат от него. Так как сейчас у меня при поиске дублей через site:domen.com inurl:*параметр* уже дубли не показываются (правда прошла 1 неделя) но вот когда просматриваю просто site:domen.com пока в индексе страниц гораздо больше чем по факту на сайте.
Заранее оговорюсь, изначально все параметры по которым могли возникать дубли были закрыты в robots, но после того как добавили тег robots все эти параметры в роботс от закрытия были удалены. (т.е. если следуя рекомендациям гугла все сделано корректно)
Да и еще robots.txt закрывает от сканирования а не от индексирования, т.е. если смотреть вот так site:domen.com то закрытые страницы в robots.txt показываться будут, а тег robots с параметром noindex, закрывает от индексирования но не от сканирования, если я правильно понял все мануалы от Google. Но у меня как раз и парадокс ситуации в том что при просмотре вот так site:domen.com страниц гораздо больше чем их должно быть но при этом закрытые от индексации в robots.txt не показываются уже. Правда сказать честно очень много удалил руками, а может те которые не успел удалить руками уже добрался бот и увидел noindex … но все равно не понятно почему site:domen.com показывает большое кол-во и посмотреть их ни как не возможно.
Есть нюанс, процитирую Google:
«Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.» — правда этот абзац можно понимать двояко, может быть имелось в виду что URL на ваш сайт будет доступен в проиндексированных страницах чужих сайтов.
Как я понял запрос site:domen.com показывает количество просканированных ссылок/страниц, которые не имеют 404, 501 и прочих кодов, возможно в это количество страниц включены и страницы с мета-тегом noindex. Почему просканированных, а не про индексированных? Потому что он в выдаче может отображать ссылки/страницы со сниппетом: «Описание веб-страницы недоступно из-за ограничений в файле robots.txt.», то есть гугл знает что страница запрещена к индексации (не индексирует ее), но ссылку отображает (так как он просканировал эту ссылку — знает о ее существовании).
У меня также количество страниц по запросу site:domen.com всегда большее, чем количество проиндексированных страниц (дополнительный индекс + основной). Сколько страниц проиндексировано можно посмотреть в панели вебмастеров, и это число всегда меньше.
Потому я и выбрал путь максимального сокращения не нужных страниц и очистку шаблона от ссылок указывающих на не существующие страницы.
Мета тег robots работает, он прописан например на страницах тегов, которые находятся на подблоге elims.org.ua/blog/ :
Запрос: «site:elims.org.ua inurl:tag inurl:blog» показывает 7 страниц, и то лишь по причине: «Описание веб-страницы недоступно из-за ограничений в файле robots.txt.», то есть google еще не знает, что в robots.txt я разрешил эти страницы индексировать.
Кстати у меня подвижки уже пошли, в панели вебмастеров 2013.09.15 показывало 2134 проиндексированных страниц, сегодня показывает 1907 проиндексированных, а по запросу «site:elims.org.ua» показывает 2180. 2180 — 1907 = 273, что это за 273 страницы понятия не имею, уже не раз пытался это выяснить =) В любом случае прогресс на лицо.
Как я понял запрос site:domen.com показывает количество просканированных ссылок/страниц
_____________
Вот тут наверно не совсем корректно. Так как если бы это было так то у меня бы показывалась цифра около 1 миллиона.
Как я понял из Гугл Вебмастера, robots.txt запрещает ИМЕННО сканирование а не индексирование, так как у них же самих написано типа «если вы добавили robots со значением noindex, то в robots.txt необходимо снять ограничения в противном случаем на бот так и не сможет просканировать страницу и выявить у неё изменения».
И вот такой вопрос … у меня в пункте заблокированные URL цифра уже статична на протяжении 2-х недель, не увеличивается и не уменьшается??? Сталкивались???
Чтоб цифра вообще не менялась — такого не было, а +-5 страничек — было. Вот мой график: cs616825.vk.me/v616825893/190f/r5V2bk-zWBg.jpg
понял, спасибо, будем дальше копать.
Владимир какие на сейчас новости?
Удалось ли избавиться полностью от доп. индекса?
Полностью нет. Сейчас у меня 1650 страниц в индексе, в основном 716. Еще осталось 934 страниц дополнительного индекса. Вот тенденция:
cs14113.vk.me/c310819/v310819893/32b3/QECtA3f-5Vs.jpg
Владимир а статистика с помощью чего построена?
Google Webmasters — google.com/webmasters
У меня такая же беда — в дополнительном индексе страниц раз в 15 больше, чем в основном :(
Тоже отображаются с текстом «Описание веб-страницы недоступно из-за ограничений в файле robots.txt»
Удалять вручную — нереально(
Да, избавляться от дополнительного индекса с помощью robots.txt — плохая идея =)
Владимир, спасибо за статью. Очень помогла. Сам столкнулся с проблемой того, что Google помещает кучу страниц моего сайта в сопливый индекс, несмотря на то что в robots прописан запрет на индексацию этих страниц.
Тег noindex — выход. Чтобы добавить этот тег в страницы с тегами, категориями помогает плагин Yoast Seo для WP
Там также есть замечательная опция Удалить переменные ?replytocom. которая убирает из сопливого индекса кучу однотипных страницы вроде site/subscribe?=488483
Я нашел ответ на ваш вопрос, как вставить тег noindex в rss feed. вот здесь
https://productforums.google.com/forum/#!topic/webmasters/KigqR0hPxrY
Сам я вставил его через скрипт в functions.php:
function feed_norobots() {
echo »;
}
add_action(‘rss_head’, ‘feed_norobots’);
function feed_norobots2() {
echo »;
}
add_action(‘commentsrss2_head’, ‘feed_norobots’);
function feed_norobots3() {
echo »;
}
Николай Перов, На здоровье) Я решил проблему через переадресацию =)
В коде не понял зачем объявлять функции feed_norobots2 и feed_norobots3, если они не вызываются =)
Владимир, я не разбираюсь в php, просто скопировал с сайта. Может вы про то, что там в скобках пусто? Почему-то текст не вставился. Там:
echo »;
И выводится noindex в xml страницу
опять не показывает. без скобок:
xhtml:meta xmlns:xhtml=»www.w3.org/1999/xhtml» name=»robots» content=»noindex
Владимир, подскажите пожалуйста, если вам не сложно.
Разве сопливый индекс, это не те страницы, которые показывает Google, когда в конце страниц поиска нажимаешь на:
«Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше (100).
Показать скрытые результаты.»
У меня там было очень много страниц. Я все это почистил через webmaster tools. (проставил noindex и открыл их для идексации в robots.txt)и больше эти результаты не показываются.
Но, когда ввожу запрос site:nperov.ru/& пишет: Результатов: примерно 123
а при запросе site:nperov.ru Результатов: примерно 341
Получается, ничего я не почистил?=)
Николай Перов, да, это он и есть, как я понимаю. Запросы вида site:nperov.ru/& немного отстают по своим данным от реального состояния, сам заметил. Позже они начинают показывать более правильную цифру, но все равно даже если уже не будет отображаться «мы скрыли некоторые результаты», цифра при запросе может сообщать что у Вас осталось несколько десятков страниц в сопливом индексе, с чем это связано — не знаю. То ли такой запрос не показывает точные данные, то ли «мы скрыли некоторые результаты» не отображают все страницы в сопливом индексе.
Владимир, благодарю за ответ!
После прочтения статьи, попробывал на сайте не которые из пунктов описаных в статье. Конечно говоря проще всего не доводить сайт до выпадения в не основной индекс, чем потом исправлять все. После своих эксперементов, наиболее затратный способ получился наиболее ефективным (я про удаление страниц в вебмастере гугла и запрет их сканирования в robots.txt). Остальные способы не менее затратные, только те затраты не прямые и фактически не видны, хотя времени тож много занимают и результат дают не так быстро как хотелось, а как говорится «время — деньги».
Анатолий, я пошел путем времени. Поубирал с сайта дубли, настроил переадресацию и набрался терпения — ждал пока поисковики сами исключат страницы из дополнительного индекса =) Мой файл: elims.org.ua/robots.txt
69% страниц в индексе Google. В Яндекс показатель лучше — 90%.
Владимир, добрый день!
Прочитал Вашу статью, интересная, но вот возник вопрос.
У меня в дополнительном индексе почти 300 страниц, реальных всего 93.
Когда я указываю stie:interior-designing.ru/&
Мне выдает около 70 страниц, потом указывает
«Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше (200).
Показать скрытые результаты.» При кликаньи на Показать скрытые результаты, они не показываются, а просто выдается первоначальный результат 70 страниц.
Вопрос: Почему не показывается весь список дополнительного индекса и как его увидеть?
Спасибо за помощь!
С Наступающими!
С уважением,
Виталий
Виталий, добрый день. К сожалению сам не знаю как отобразить такие страницы. Но у вас их не так уж и много, можно пойти методом исключения — выгрузить список страниц которые включены в индекс, потом пройтись по своему сайту такой утилитой как elims.org.ua/blog/xenu-audit-sajta-i-mertvyx-ssylok/ или аналогичной.
Посмотреть список найденных ссылок на внутренние html страницы и выяснить которые из них не включены в индекс. На первый взгляд утилита как раз около 300 html страничек и нашла на вашем сайте, если считать вместе вот с такими страницами interior-designing.ru/goto/boysplaynice.com/
И Вас с наступающим =)
Владимир,
спасибо за быстрый ответ.
Я новичок в этом и не совсем понял как проходиться по сайту утилитой elims.org.ua/blog/xenu-audit-sajta-i-mertvyx-ssylok/ и что такое утилита.
Если есть время, пожалуйста,напишите подробно, шаг за шагом как именно проверять!
Извините за беспокойство,
С Уважением,
Виталий
goto скорее всего ложный след. А вот если вбить в поиск вот так: site:interior-designing.ru inurl:interer то можно найти в выдаче вот такую ссылку interior-designing.ru/interior/interer-penthausa/feed/
избавьтесь в шаблоне от таких ссылок и разрешите все в robots, я думаю так будет правильней, хотя могу ошибаться. Сравните мой robots, robots того же devaka.ru (известного seo-шника) и свой robots
Владимир,
спасибо за супер-советы, уж нашёл кучу ссылок и начал удалять!!!
Всего наилучшего в Новом году!
С Уважением,
Виталий
Владимир, добрый день!
Прежде всего спасибо за дельные советы и супер программку Xenu, которая помогла выявить все ссылки, спасибо!
Сейчас занимаюсь упорядочиванием ссылок и прочитав Вашу статью возник вопрос, а вернее два.
1. Чтобы расширить внутреннюю перелинковку, в конце каждой статьи я вставлял стандартный абзац со стандартным якорями (ЗНАКОМСТВО, МОЛОДЫЕ ТАЛАНТЫ, сюда) — вот пример:
Более подробную информацию о дизайнерах и студиях, с которыми сотрудничает сайт и их творчестве, Вы можете узнать в рубрике ЗНАКОМСТВО и МОЛОДЫЕ ТАЛАНТЫ. А полностью ознакомиться со всеми проектами и дизайнерами, которые их создавали, Вы можете, зайдя СЮДА.
Но из Вашей статьи я понял, что Google, не любит стандартных (одинаковых) якорей как на одной странице, так и в одном блоге.
Так я понимаю, я делал неправильно, а правильнее будет вместо это стандартного абзаца, вставлять якорные ссылки на тематические слова в самом тексте статьи.
Я правильно Вас понял?
2. Я хочу поменять доменное имя сайта. Правильно ли я делаю, что в начале хочу оптимизировать (укоротить урлы) ссылки на этом сайте, удалить мертвые ссылки, подождать полной индексации новых ссылок Гошей и Яшей и лишь потом переходить на новое доменное имя?
Большое спасибо за помощь и профессиональные советы.
С уважением,
Виталий
1. Да, считаю, лучше якорные ссылки на тематические слова в самом тексте статьи, при этом без злоупотреблений, в разумных количествах.
2. Полной индексации ждать не обязательно — может занять много времени, но порядок на сайте перед переходом лучше навести. Полная индексация конечно лучше покажет подводные камни, которые на первый взгляд не были заметны.
Благодарю, думаю размещать 9-10 внутренних ссылок, надеюсь, что это немного.
С Уважением,
Виталий
Владимир,
я тут немного изменил robots.txt, добавив туда
Disallow: /*?replytocom
Disallow: /index.php?s=
и удалив
Disallow: /category
Crawl-delay: 10
но при проверке robots.txt инструментом проверки файла robots.txt гугла, мне постоянно выдает ПРЕДУПРЕЖДЕНИЕ именно на Crawl-delay: 10
Хотя этой строки уже нет, другие изменения в файле показаны правильно, а Crawl-delay: 10 хотя удалено, но на него указывает предупреждение и его видно в файле если заходить через RDS бар.
Как такое может быть, строчки нет в корневой папке, а её видно и так это исправить?
Спасибо за помощь.
С уважением,
Виталий
Здравствуйте, Владимир! Подскажите пожалуйста, вот у меня в гугл вебмастере стоит, что 349 страниц с заблокированными ресурсами. Трафик с гугл мизерный вообще, хотя раньше гугл мой сайт любил, а потом не знаю, что произошло такое.Как вы думаете, можете тут ошибки в настройках файла роботс, не знаю что делать?
Елена Курбатова, здравствуйте. Может быть и роботс, хотя я в этом сомневаюсь. А может и что-то другое, без детального анализа не скажешь. Причин может быть много.