Каким образом поисковые системы определяют релевантность страниц ? |
При запросе по определенному слову или словосочетанию поисковая система находит в своих индексах все веб-страницы, которые их содержат. Таких страниц может быть десятки тысяч, и поэтому следующей задачей системы является отображение их пользователю в порядке убывания релевантности.
При вычислении коэффициента релевантности система учитывает следующее:
1. Количество ключевых слов
То есть сколько раз встречаются указанные ключевые слова в документе. Чем их больше, тем более релевантным является документ. Иногда желание добиться успеха на этом поприще заставляет некоторых использовать неприглядные приемы искусственного увеличения релевантности своей страницы - спамить поисковые системы. В основном, спам заключается в использовании неоправданно большого количества ключевых слов на странице. Часто для того, чтобы подобные дополнительные слова не портили посетителям впечатление от страницы, их пишут текстом, совпадающим по цвету с фоном страницы, или мелким шрифтом и т.д.
Разумеется, администрация поисковиков не одобряет подобные действия. Системы поиска призваны находить и отображать документы в соответствии с тем, что содержит текст, предназначенный для посетителей, а не по "обогащенной смеси" ключевых слов. Западные системы уже имеют ряд автоматических средств слежения за подобным спамом, российские скоро планируют их ввести. Поэтому я не советую Вам злоупотреблять количеством ключевых слов на странице.
2. Месторасположение ключевых слов.
Для поисковой системы одно и то же слово может иметь различный "вес" в зависимости от того, где оно встречается в Html-документе.
22
a. Наибольший "вес" имеют слова в заголовке страницы (заголовок - это то, что указанно между па2рным тегом <title></title> ). Поэтому обязательно поместите ключевые слова в заголовок документа. Однако не стоит делать заголовок бессмысленным и слишком длинным, перегружая его ключевыми словами. Не забывайте, что помимо поисковых систем заголовок будет изучен пользователями (он будет виден в результатах поиска, а также, если кто-либо захочет поместить Вашу страницу в свой bookmark, то там будет фигурировать как раз заголовок).
b. Большой "вес" и у выделенных в основном тексте ключевых слов (выделение тегами <H1-H6>, <B>, <STRONG> ).
c. Поисковые системы придают больший "вес" словам, расположенным в начале страницы, нежели тем, что расположены в конце. Постарайтесь сделать так, чтобы ключевые слова встречались в первом параграфе страниц. Имейте в виду, что таблицы и Java-апплеты отодвигают текст, следующий за ними, еще ниже, тем самым уменьшая его значимость для поисковых систем.
d. В Html-документах есть целый ряд служебных полей. Некоторые поисковые системы индексируют их содержание и учитывают при поиске и определении релевантности. К ним можно отнести мета-теги (см. ниже), поле ALT, комментарии к странице. Желательно поместить ключевые слова в эти поля.
3. Густота ключевых слов.
При определении степени релевантности страниц по заданным ключевым словам большинство поисковых систем учитывают не только количество ключевых слов, а еще и отношение их количества ко всем остальным словам. Таким образом, страница, содержащая только два слова "зимняя рыбалка", будет идти впереди страницы, содержащей помимо сочетания слов "зимняя рыбалка" еще и другие слова.
Протестируйте ключевые слова
Посетите все основные поисковые системы. Вводите ключевые слова и смотрите, какие страницы идут первыми. Изучите "source code" этих страниц и посмотрите, где и в каком количестве встречаются вводимые ключевые слова, сделайте соответствующие выводы.
Обязательно используйте мета-теги
Большинство поисковых систем учитывают мета-теги. На примере, приведенном ниже, Вы можете видеть два мета-тега, которые предназначены специально для поисковых систем: description и keywords. Эти мета-теги располагаются внутри парного тега <HEAD></HEAD> и являются невидимыми для браузеров.
<HEAD>
<TITLE>Мир стратегических компьютерных игр</TITLE>
<META name="description" content="На наших страницах Вы узнаете все о стратегических играх. Вашему вниманию - обзоры новых игр, хит-парад стратегий, советы по прохождению сложных уровней и многое другое...">
<META name="keywords" content="игры, компьютерные игры, стратегии, стратегические игры, solutions, игрушки, новые, новинки, прохождение, games, пошаговые, real-time, diablo, war craft, fallout" >
</HEAD>
Тег "keyword". Сюда необходимо поместить ключевые слова. Этот тег позволяет повысить релевантность страницы. Помимо этого, можно использовать слова, которые релевантны тематике сайта, но Вы по каким-либо соображениям не собираетесь включать их непосредственно в текст страницы. Можно использовать не только ключевые слова, но и словосочетания. Пользователь обычно производит поиск не по одному слову, а именно по словосочетанию.
Так что при прочих равных условиях при запросе "поисковые системы" страница, содержащая в "keywords" сочетание "поисковые системы",
<META name="keywords" content="советы, каталоги, поисковые системы">
будет показана выше, чем страница, содержащая два слова отдельно: "поисковые" и "системы":
<META name="keywords" content="советы, каталоги, поисковые, системы">.
Количество разрешенных ключевых слов для этого тега колеблется от системы к системе (длина в среднем составляет 200 символов). Не используйте одни и те же слова в этом теге более семи раз (поисковая система их просто проигнорирует). Рекомендуемое количество - три, причем лучше не помещать их одно за другим, а перемежать с другими ключевыми словами. Если вы используете английские слова, желательно помещать их во множественном числе - "cats" вместо "cat". Пользователь, производя поиск по слову "cat", всегда найдет страницу, содержащую слово "cats", а в противоположном случае страницу отыщет далеко не каждая система.
Тег "description". При выдаче результатов поисковые системы помимо заголовка показывают первые 100 - 200 символов текста со страницы в качестве аннотации. Но первые слова на странице могут не подходить в качестве аннотации (например, когда в начале стоит текст опции выбора кодировок и т.д.). Используя тег "description", указывайте любое другое описание (желательно уложиться в 200 символов), которое будет привлекательно для пользователя. Помимо всего прочего, включая в это описание ключевые слова, Вы еще больше увеличиваете их процентное соотношение (густоту) на странице и, соответственно, улучшаете ее релевантность. Этот тег также незаменим на странице, целиком состоящей из графических элементов, на которых просто нечего индексировать (без текста вообще).
Тег "robots". Стоит упомянуть еще об одном важном теге - "robots". Если Вы по каким-либо причинам не хотите, чтобы страница была проиндексирована, поместите туда тег:
<META name="robots" content="noindex">
К сожалению, не каждый спайдер понимает данный тег, и более надежным методом является помещение файла robots.txt в корневую директорию сервера со списком страниц, индексации которых Вы не желаете.
Frames и ImageMaps не должны быть помехой!
Примерно половина поисковых систем "не понимают" Frames и ImageMaps. Другими словами, "пауки" таких систем просто-напросто игнорируют все, что находится внутри тегов <FRAME> и <FRAMESET> или, соответственно, в теге <MAP>.
Если Вы используете Frames
Обычно формирование фреймов на экране производится на начальной странице сайта (как правило, index.html). Данная страница не несет никакого информационного содержания, и пользователь после ее загрузки видит содержание других Html-страниц, помещенных во фреймы - это заголовок начальной страницы. Причем для пользователя, путешествуюшего по сайту и загружающего различные документы во фреймы, заголовок будет оставаться тем же самым заголовком начальной страницы index.html.
Ввиду того, что в стандартном случае на вышеописанной странице помимо тегов формирования фреймов нет ни текста, ни ссылок на другие страницы сайта, пауку, не понимающему фреймов, нечего будет индексировать и не будет возможности идти по ссылкам дальше, в глубь сайта.
Решением данной проблемы является использование тега <NOFRAMES> .
Поместите внутри парного тега <NOFRAMES> </NOFRAMES> обогащенное ключевыми словами описание страницы и, помимо этого, добавьте туда ссылки на все страницы сайта. Первое поможет пауку выгодно проиндексировать начальную страницу, второе обеспечит доступ паука и ко всем остальным страницам сайта.
Также необходимо, как и на любой другой странице, использовать мета-теги "description" и "keywords".
Если Вы применяете фреймы, не следует забывать не только о начальной, но и обо всех остальных страницах. Как я упоминал ранее, пользователь, попавший к Вам через начальную страницу, путешествуя по сайту, будет всегда видеть в заголовке название начальной страницы. Но есть большая вероятность того, что через поисковую систему пользователь найдет не главную, а любую другую страницу ресурса. Поэтому не забывайте указывать заголовок для каждой из страниц. Помимо этого, обеспечьте хорошо различимую ссылку с любой страницы на начальную (формирующую фреймы).
Используйте примерно следующий код:
<a href="index.html" target="_top">-на главную страницу-</a>
target="_top" - необходимо для того, чтобы пользователи, попавшие на данную страницу "нормальным" образом (для них страница находится во фрейме, а не занимает весь экран), загружали главную страницу во весь экран, а не внутри данного фрейма.
Не следует помещать тег <NOFRAMES> ранее первого тега <FRAMESET> (это может быть вызвано желанием поместить текст с ключевыми словами как можно раньше, что позволит придать им больше "веса" в глазах поисковых систем). Такой Html код будет работать с Internet Explorer, а вот Netscape Navigator не сможет в этом случае показать фреймы.
Если Вы используете ImageMaps
Здесь все достаточно просто. Создайте возможность альтернативной навигации по сайту. Используйте как альтернативу ImageMaps - текстовые ссылки, которые, разумеется, поймет паук любой поисковой системы. Например, так:
Мировые поисковые системы | Успешная регистрация в каталогах |Настройка страниц для поисковых систем | Русские поисковые системы | Индексация в поисковых системах
Помимо поисковых систем, Вам скажут спасибо пользователи с отключенной автоматической загрузкой картинок в браузере.
Зарегистрируйте Ваши страницы
Вы можете создать веб-сайт и ждать, пока спайдеры поисковых систем проиндексируют его. Конечно, если на Ваш ресурс будут вести ссылки с других страниц, то рано или поздно это произойдет, но зачастую может пройти довольно долгое время.
Поэтому не ждите и самостоятельно проиндексируйте свой веб-сайт в как можно большем количестве поисковых систем сами. Индексирование можно проводить с помощью специальных бесплатных серверов-регистраторов. Их довольно много, перечисляю некоторые из них:
Submit It! (http://free.submit-it.com/) (платная)
Add Me! (http://www.addme.com/)
WWW Broadcaster (http://www.broadcaster.co.uk/terms.htm/)
Sputnik ADDER (http://www.sharat.co.il/adder/)
@Submit! (http://www.uswebsites.com/submit/)
Web Site Submission (http://www.smithfam.com/submission.html)
ABS Easy Submit (http://www.scrubtheweb.com/abs/submit/index.html)
В сети есть сервер-регистратор, созданный Артемием Лебедевым для регистрации не только в международных, но и в российских поисковых системах и каталогах - система TAU (http://www.design.ru/free/addurl/). Одним из полезных свойств данной системы является опция получения ответов от серверов: сразу становится ясно, где регистрация прошла успешно, а где нет.
Не так давно студией "JS-дизайн" был создан еще один автоматический российский регистратор - http://www.js.ru/poisk/submit.htm. Есть в Рунете и специализированный сайт, посвященный регистрации в поисковиках и каталогах - www.registratura.ru
Однако не стоит до конца доверяться вышеупомянутым серверам-регистраторам. После того, как Вы зарегистрировали свою страницу через них, посетите стратегически важные поисковые системы и зарегистрируйтесь в них вручную.
В принципе, если ссылки с главной страницы ведут на любую из страниц веб-сайта, то можно зарегистрировать только главную страницу. Робот поисковой системы рано или поздно обойдет весь сайт. Однако следует иметь в виду следующее:
• при регистрации поисковые системы обычно оперативно помещают в индексы указанную страницу и ставят весь остальной сайт в очередь на индексацию, и разница по времени между индексацией указанной страницы и всего остального сайта может составить несколько недель;
• некоторые поисковые системы не индексируют автоматически внутренние страницы сервера глубже четвертого уровня (т.е. когда для попадания на страницу надо совершить четыре перехода);
• организация навигации с помощью Frames, Imagemaps, Java-скриптов может помешать роботу пройти вглубь веб-сайта для индексации внутренних страниц.
Принимая во внимание вышеперечисленное, желательно регистрировать не только начальную страницу сайта, но и ряд внутренних ключевых страниц. Конечно, во всем надо знать меру: не стоит регистрировать отдельно каждую страницу, если у Вас их несколько десятков.
Через некоторое время после регистрации проверьте, проиндекированы ли страницы в системе, в каком виде выдается результат и т.д.
Время, через которое следует учинить проверку, разнится от системы к системе. Например, InfoSeek поместит страницу в свои индексы в течение нескольких минут после регистрации, AltaVista за 1 день, Excite за три недели.
Многие поисковые системы позволяют проверять наличие страниц в индексах. Например, в AltaVista при следующих запросах вы получите:
url:insurance.com - все проиндексированные страницы в этом домене;
url:insurance.com/firms/ - все проиндексированные страницы в этой директории;
url:insurance.com/firms/alco.htm - соответсвующую страницу, если она находится в индексах.
Желательно раз в месяц наведываться в стратегически важные для Вас поисковые системы и снова проверять, есть ли Ваши страницы в индексах. Иногда случаются странные вещи, и страницы могут исчезнуть из индексов.
По ряду причин Ваши страницы могут вообще не попасть в индексы:
• Например, AltaVista позволяет индексировать не более чем 600 страниц на один домен. Как следствие, страницы, расположенные в таком, например, обширном домене как geocities.com, имеют большой шанс быть вообще не проиндексированными;
• Специализированные поисковые системы, например, российский Апорт, индексируют страницы только доменов ru, su, ua и др., принадлежащих странам ближнего зарубежья. При регистрации страницы, располагающейся в зоне .com, робот проверит корневую страницу ресурса. При отсутствии русского текста индексация не произойдет;
• Содержание страницы может быть расценено системой как спам поисковой машины, и, соответственно, она не будет помещена в индекс.
« предыдущая | содержание | следующая »
Автор: Владимир Самолойв
Рубрики: | полезные советы компьютер |
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |