| |
Индексация сайта поисковой машиной, немного из истории
С увеличением объёма ёмкости поисковой информации, представленной в мировом интернете, стала всё чётче появлятся задача эффективного,качественного а так же очень быстрого поиска нужных данных. Вначале данную функцию выполняли веб каталоги - упорядоченные по тематике списки ссылок. Их составляли вручную, нередко привлекая в качестве модераторов добровольцев.
От качества также количества представленных в каталоге сайтов зависела его популярность. С течением времени люди придумали более эффективный средство отыскивать информацию - при помощи поисковых систем.
Интернет - это гипертекстовая среда, также дозволено предположить, что все страницы также документы связаны промеж собой ссылками. В случае кушать сайт, то хоть бы одна ссылка должна вести на него. Соответственно, переходя по ссылкам от одного сайта к другому также сохраняя представленную на них информацию, дозволено занести в базу данных все сведения, находящиеся в интернете.
По этому принципу стали трудиться поисковые машины. Специальные программы - поисковые роботы - находили сайты также передавали их на обработку. На первом этапе создания поисковых машин вручную составлялись списки индексации, дабы облегчить роботам нахождение всех значимых сайтов. В дальнейшем это перестало существовать необходимым.
В идеале, переходя по ссылкам, дозволено найти все документы. А на практике так никак не получается. Сущность сети спешно меняется, также отслеживать все изменения в режиме реального времени никак не удается. Базы данных даже самых крупных поисковых систем охватывают максимум половину информации, представленной в сети.
Прародителем поисковых роботов стала программа Archie (Арчи). Она сканировала неизвестные FTP сервера также фиксировала названия находящихся там файлов. Арчи работал в интернете еще в то время, в какое время в глобальной паутине никак не было также сотни серверов HTTP! Главный поисковым роботом в современном значении этого слова стал Вандерер (Wanderer).
Но первые поисковые машины появились в интернете в середине 90-х годов. Среди поисковиков того времени дозволено назвать Excite, Lycos, Infoseek. Самой популярной также совершенной считалась AltaVista. Она использовала собственного поискового робота также обладала удобным дизайном. Надобно отметить, что дизайнерские решения, которые впервые применила AltaVista, в дальнейшем нашли свое отблеск в большинстве популярных поисковых машин, включая Google.
Со временем поисковые машины начали конкурировать промеж собой, появились новые подходы к поиску информации. В частности, некоторые системы начали интегрировать результаты поиска по индексу также какому-либо популярному каталогу, скажем, Yahoo.
Самая популярная нынче поисковая машина Google появилась в 1998 году. Российские поисковые машины похоже начали трудиться в середине 90-х годов. Скажем, Рамблер также Апорт открылись в 1996 году. Некоторое пора каталог Рамблер Топ 100 был самым популярным ресурсом в Рунете. Поисковая машина "Яндекс" появилась в 1997. На сегодня данная система обладает самой внушительный базой документов среди схожих проектов в Рунете.
Типы поисковых машин Гордо отличать каталог от поисковой машины. В большинстве каталогов существует возможность поиска, а он ведется исключительно по базе сайтов, внесенных в каталог. Также сущность ресурсов никак не учитывается - в расчет берется только категория, название также реже - описание сайта. Как будто положение, владельцы сайтов своими силами подают заявки на прибавление своего проекта.
В каталогах все сайты представлены по рубрикам. Посетители могут обретать интересующий их раздел также просматривать перечень сайтов в нем. Чаще всего помимо ссылок также названий каждый ресурс имеет краткое либо подробное описание. В Интернете кушать тысячи каталогов, а популярных также авторитетных никак не так немало. К числу последних дозволено отнести каталоги Яндекса также DMOZ.
Помимо повышения цитируемости сайта, они дают реальный трафик (переходы пользователей) на представленные в них ресурсы. Другим образом работают поисковые машины. Они автоматически индексируют сущность ресурсов в интернете также формируют на этой основе базу данных (индекс). В ней содержится информация об содержании сайта, ссылках на конкретный ресурс также другие полезные сведения.
Новые сайты поисковые машины находят по ссылкам. Таким образом, подавать заявку на прибавление сайта в индекс поисковой машины никак не обязательно. Со временем поисковый робот самолично найдет ваш ресурс. Хоть заявку дозволено добавить, скажем, ради ускорения этого процесса.
Существуют похоже метапоисковые машины. Их основное отличие заключается в том, что они формируют результаты на основе выдачи нескольких поисковых машин.
Как будто проходит индексация
Индексация ресурса начинается с приходом на сайт поискового робота (спайдера, кроулера) - это специальная программа, которая обходит все ресурсы в интернете также передает их содержимое ради обработки индексаторам. Иной раз раздельно выделяют кроулеров - помимо поиска, этот тип роботов может своими силами исследовать, по какой ссылке в документе ему дальше двигаться.
Несомненно, ради разбора передаются никак не все данные. Чаще всего сущность ресурса очищается от ненужных тегов. Далее идет отделка, определение веса, частоты, плотности ключевых слов. Обработанная информация попадает в базу данных поисковой системы (индекс).
Такая "самостоятельность" поисковых роботов может привести к негативным последствиям. Скажем, в случае в индекс попадут документы, которые обладатель ресурса никак не желает казать по тем либо иным причинам, или страницы, которые самолично обладатель считает малоинформативными либо техническими.
Ради избежания подобных ситуаций был создан протокол Robot Exclusion Protocol, какой позволяет запретить индексацию всего сайта либо его элементы. На практике команды прописываются в файле robots.txt, какой помещают в корневой каталог сайта. Скажем, в случае адрес вашего сайта www.site.com, то текстовый файл вынужден лежать по адресу www.site.com/robots.txt. В противном случае поисковые роботы никак не найдут его также проиндексируют весь ресурс.
Подробно об Robots.txt
Файл robots.txt состоит из записей вида: User-agent: * Disallow: test.htm Поле User-agent указывает на поискового робота, которому предписана команда. Каждый поисковый робот имеет собственное название, скажем, бота Google "зовут" googlebot. В случае в этой строке поставить звездочку (*), то команда распространится на всех поисковых роботов без исключения.
В поле Disallow указано, что запрещено индексировать. В данном поле дозволено указать конкретный файл, директорию либо типы файлов. Скажем: Disallow: test.htm - запрещено индексировать файл test.htm Disallow: /cgi-bin/ - запрещено индексировать содержимое папки cgi-bin Disallow: /*.doc$ - запрещено индексировать файлы с расширением .doc В файл robots.txt дозволено записывать комментарии. Ради этого вначале строки необходимо ввести знак #.
Запретить индексировать акт похоже дозволено с помощью meta-тегов. Скажем, данная срока запрещает поисковому роботу индексировать акт: ‹meta name="robots" content="noindex,follow"› Существуют четыре типа команд:
INDEX,FOLLOW - роботы проиндексируют страницу также пройдут по ссылкам на ней INDEX,NOFOLLOW - роботы проиндексируют страницу, а ссылки на странице будут проигнорированы NOINDEX,FOLLOW - страница никак не станет проиндексирована, а роботы пройдут по ссылкам NOINDEX,NOFOLLOW - содержимое страницы также ссылки на ней будут проигнорированы ‹a href="http://site.com" rel="nofollow"›Текст ссылки‹/a›
Отечественные поисковые машины, в частности, Яндекс также Рамблер понимают еще 1 тег: ‹noindex›‹/noindex›. Все, что в нем содержится, игнорируется поисковыми роботами этих систем. Этот тег дозволено использовать, дабы закрыть доля кода от индексации. Таким образом, дозволено повысить плотность ключевых слов на странице. Но использовать ‹noindex› никак не рекомендуется, ведь многие поисковые машины его никак не воспринимают.
В случае у вас небольшой сайт, состоящий из 10-20 страничек, файл robots.txt дозволено сваять вручную. В случае проект внушительный, ручная занятие может обернуться потерей времени также множеством ошибок. Из-за последних в индекс могут попасть лишние документы. Избежать этого дозволено, в случае воспользоваться программными средствами ради автоматизации процесса.
Так, в программе Page Promoter ради работы с файлом robots.txt предусмотрен визуальный редактор. В нем находятся две закладки. На первой дозволено выбрать поисковых роботов, на другой - запретить конкретным поисковым роботам индексировать доля сайта либо весь ресурс. В программе находится информация об более чем 180 поисковых роботах, принадлежащих самым известным поисковым машинам мира.
По каждому роботу дозволено посмотреть подробную информацию, в частности, название поискового сервиса, название робота, страну также основной говор поисковика. Помимо того, программа Page Promoter позволяет импортировать файл robots.txt. Весьма удобно, в случае вам необходимо исправить либо проверить какой-либо файл.
Процесс индексации
К сожалению, никак не прктически всегда индексация ресурса проходит идеально. Нередко появляются проблемы, которые препятствуют индексации элементы также даже всего веб-сайта. Или ресурс полностью вылетает из индекса. Весьма зачастую причиной таких явлений делаются ошибки, допущенные во пора разработки проекта.
Специалисты выделают три типа ошибок, которые препятствуют нормальной индексации сайта: Использование конструкций, препятствующих индексации Засорение индекса дубликатами страниц
Препятствия индексированию сайта
К ошибкам первого типа относят использование скриптов также флэш ради создания меню. Занятие в том, что поисковые машины никак не умеют индексировать содержимое скриптов также Flash. Поэтому спрятанные в них ссылки они похоже никак не найдут также никак не перейдут по ним на другие документы.
В случае на вашем сайте использовано такое меню, выход - продублировать навигацию текстовыми ссылками, скажем, внизу страницы. Впрочем, ситуация с Flash сейчас мало лучше. Доля поисковые машин, к числу которых относятся Яндекс также Рамблер, научились индексировать Flash. А остаются системы, которые никак не могут этого действовать.
Популярная в прошлом погрешность - использование фреймов. Они позволяют разделить экран пользователя на порядочно областей также в каждой открыть известный акт. Использование фреймов замедляет индексацию документа. Похоже встает задача авторитетности того либо иного документа. В случае на главной странице открываются три разных html-файла, то неизвестно, какой из них поисковая машина посчитает главной страницей. Использование фреймов приносит множество проблем.
Осторожно следует подходить к использованию редиректа, какой автоматически направляет посетителя с одной страницы на другую. Редирект на стороне клиента однозначно воспринимается поисковыми машинами как будто спам. Занятие в том, что такой редирект зачастую используют владельцы дорвеев. Редирект на стороне сервера никак не относится к запрещенным технологиям, а похоже может вызвать проблемы. Скажем, с учетом внешних ссылок на акт.
Никак не прктически всегда поисковые машины корректно индексируют динамические страницы. К их числу относятся страницы, в адресе которых находится знак вопроса, или их разрешение отлично от .htm либо .html. Некоторые поисковые системы накладывают ограничения на индексацию подобных документов также учет ссылок на них.
Засорение индекса дубликатами страниц происходит чаще всего при использовании идентификаторов сессии. В случае их применения каждому посетителю присваивается уникальный код, какой дублируется в адресе страницы.
Идентификаторы позволяют набирать информацию об поведении посетителей на сайте, а в то же пора затрудняют индексацию ресурса. При каждом визите поисковый робот получает одни также те же страницы с разными адресами (из-за идентификаторов) также в поисковой машине копятся дубликаты страниц. В итоге сайт могут пессимизировать или удалить из индекса внушительную доля документов.
Сегодня идентификаторы потеряли свою актуальность - существует множество других инструментов ради сбора статистики. Тем никак не менее, в случае на вашем сайте используются идентификаторы, необходимо избавиться от них либо прописать запрет на присвоение идентификаторов поисковым роботам.
Ошибки появляются в случае неправильно настроенного сервера. При обращении поискового робота к документу сервер сообщает в заголовке код, скажем, 200 (все OK). Кушать другие коды: 301 (документ перемещен), 302 (временно перемещен), 404 (не найден). Проблемы появляются, в случае сервер передает код 200 (все ОК) ради несуществующих страниц.
В случае весьма крупных сайтов возникает еще одна проблема. Поисковые роботы за 1 визит индексируют определенное число документов. В случае ресурс содержит тысячи страниц, то на их индексацию потребуется порядочно визитов ботов также соответственно больше времени. Владельцу сайта, навыворот, хочется увидеть все страницы в индексе как будто дозволено скорее. Решить проблему дозволено созданием поддоменов, скажем, отдельного поддомена ради форума.
Ради каждого поддомена выделяется своя квота индексации также в итоге за 1 визит обрабатывается больше документов. Другое решение - запретить ради индексации малоинформативные страницы. В то время в индекс попадут только самые интересные ради посетителей также поисковых машин документы.
Как будто добавить
Процесс индексации дозволено ускорить, в случае вручную подать заявку на прибавление сайта в поисковую систему. Ниже приведены ссылки на страницы добавления сайтов в наиболее популярных поисковых системах:
Яндекс - http://webmaster.yandex.ru/ Рамблер - http://www.rambler.ru/doc/add_site.shtml Апорт - http://catalog.aport.ru/rus/add/AddUrl.aspx LiveInternet.ru - http://www.liveinternet.ru/add Meta.ua - http://meta.ua/webmaster/addurl.asp Google.com - http://www.google.com/addurl/?continue=/addurl Yahoo.com - http://search.yahoo.com/info/submit.html MSN.com - http://search.msn.com/docs/submit.aspx AltaVista.com - http://www.altavista.com/addurl/default AOL.com - http://search.aol.co.uk/web_idx?help=add_sites Looksmart.com - https://adcenter.looksmart.com/quick_start/ad_description Lycos.com - http://insite.lycos.com/ Dogpile.com - https://client.enhance.com/ols/index.do?network=dogpile
При добавлении сайтов в поисковые машины необходимо учитывать строй их особенностей. Скажем, ради добавления сайта в поисковую систему Google необходимо, дабы на ресурс стояла хоть бы одна внешняя ссылка. В то время поисковый робот Google самолично найдет ваш ресурс.
Некоторые поисковые машины используют алгоритмы других поисковиков, но похоже учитывают наличие сайтов в определенных каталогах. Скажем, тот же Google также строй других поисковых машин используют базу данных каталога DMOZ (http://dmoz.org/). Отечественная поисковая машина Mail.ru использует алгоритмы Яндекса. |
|