Григорьева Ирина.
Оптимизация сайта для поисковой машины Рамблер

Количество пользователей Интернета растет с каждым годом, так же растет и количество доступной информации, что предъявляет высокие требования к современным поисковым системам. Ведь при насыщении рынка покупатели становятся требовательнее, и если раньше альтернативы не было, то теперь, если поисковик обманул ожидания, Вы переключитесь на другой.

Поэтому такие факторы, как скорость и качество становятся ключевыми, что ведет к сильнейшей конкуренции и быстрому развитию поисковых систем. Современный Интернет пользователь предъявляет высокие требования к разработчикам. Получил ли он требуемое при использовании их продукта? А найдет ли он ту же информацию завтра при использовании тех же слов? Насколько близко к вершине оказалась нужная ссылка и сколько “пустой породы” пришлось пересмотреть, формулируя запрос раз за разом из–за несовершенства программной базы? Насколько удобно представлены результаты и не разбегаются ли глаза, пытаясь во всем многообразии представленных данных отыскать искомое. Все эти вопросы приводят к тому, что команды разработчиков день за днем делают поисковые системы умнее, быстрее, эффективнее. Сейчас мы на примере Rambler.ru рассмотрим процесс улучшения системы поиска, чтобы соответствовать требованиям постоянно растущего Интернета.

Одной из ключевых характеристик поисковой системы является полнота – отношение количества найденных страниц, ко всем страницам, подходящим к формулировке запроса. Для того, что бы ответ на запрос был наиболее полным, в базе данных поисковой системы должно храниться максимально возможное количество информации, в недостижимом идеале – все, что есть на просторах Интернета. Как этого достичь? Предположим, у нас есть поисковый робот, осуществляющий поиск всех неизвестных документов, на другой машине, робот ищет документы со сроком давности не менее месяца, но не более года. Для увеличения быстродействия логично будет переформулировать задачу, например, разбить все возможные ссылки на десять частей и назначить десять роботов для на её выполнение. Таким образом, простым увеличением количества машин мы увеличим объем обрабатываемой информации.

Далее, для экономии объема хранилища информации, она хранится в сжатом виде, разбитая на части по 50 Мбайт каждая. Эти данные распределены по всем доступным машинам и обрабатывается программой индексатором, причем обработка происходит последовательно, закончив с одним массивом, программа переходит к следующему. В результате получается некоторое количество индексных баз, каждая их которых содержит информацию о своем сегменте Интернета. Увеличение числа машин приведет к получению системы параллельной обработки информации и увеличит итоговое быстродействие системы. Полученная информация обрабатывается с помощью специализированного программного обеспечения, получившего название ”сливатор”, таким образом, происходит новая нумерация документов. Содержащиеся во всех частях документы объединяют, причем при совпадении информации, приоритет отдается созданным недавно. В случае если страница прекратила свое существование, она удаляется из базы. Документы, совпадающие по контенту, объединяются в один файл.

Другой важной характеристикой является точность. Это то, насколько найденная информация совпадает с запросом. Ведь следует знать, что в конечном итоге пользователю нужен один сайт содержащий всю полезную информацию, если он конечно, существует. Поэтому идеальным результатом будет одна единственная ссылка на требуемый ресурс. Это существенно сэкономит время и повысит популярность поисковика. Для достижения максимального результата Rambler использует комбинацию методов служащих для получения и обработки данных. Одним из преимуществ данной поисковой системы является распознавание грамматических омонимов, что увеличивает индексную базу. Однако, если есть недостатки, страдает точность поиска.


Задать вопрос

* Ваш вопрос:

* Имя:

* E-mail:

Телефон:


Контакты

Тел: +7 (495) 792-40-84
E-mail: ksm@kaesem.ru
ICQ: 177843751

Rambler's Top100