Будь умным!


У вас вопросы?
У нас ответы:) SamZan.ru

Все средства эти предоставляют доступ к определенным типам информационных ресурсов gopherspce WWW Usenet FTP и ни о

Работа добавлена на сайт samzan.ru: 2015-07-10


Глобальные поисковые системы ( Search Engines)

Берещьян Виктория

К общим средствам поиска относятся такие системы, как veronika ,jughead ,archie ,Web Crawler ,InfoSeek ,Deja News и ряд других . Все средства эти предоставляют доступ к определенным типам информационных ресурсов (gopherspace, WWW, Usenet, FTP ),и ни одно из них не является совершенным . Ктому же INTERNET непрерывно расширяется и развивается, и появление новых информационных технологий требует постоянно быть в курсе последней информации .Вышеуказанные системы могут дополнять и применяться в сочетании с другими методами поиска (коммерческие базы данных- Dialog, DataStar). 

Работа поисковых систем основана на использовании так называемых ключевых слов или слов-концепций. Поиск осуществляется в некоторой индексной базе данных (ИБД), содержащей ссылки на соответствующие источники первичной информации, которыми могут быть WWW-страницы, статьи в Usenet или WAIS-индексы. Для создания и поддержки таких баз данных применяются так называемые программы-роботы, задачей которых является регулярный <обход> всего информационного пространства и извлечение из встреченных документов заголовков, выделенных слов и ссылок,оглавлений, начальных абзацев и другой служебной информации.

Для поиска в ИБД используются различные алгоритмы поиска и ранжирования документов по степени релевантности, т.е. по мере близости к теме запроса содержащейся в них информации. Одним из таких алгоритмов является TF*IDF- алгоритм, вычисляющий степень релевантности каждого документа по отношению к запросу, содержащему некоторый набор ключевых слов в зависимости от частоты появлений каждого ключевого слова в каждом документе, ее максимального значения, общего количества документов в собрании и количества документов, содержащих ключевое слово. После ввода запроса поисковая система определяет, какие документы, их индексы, хранящиеся в ИБД, обладают максимальной релевантностью, и возвращает пользователю список адресов, указывающих на места нахождения первоисточников,

На самом деле неважно, насколько хорош тот или иной алгоритм поиска и ранжирования,т.к. документ,обладающий максимальной степенью релевантности, может и не содержать нужной пользователю информации.Это может быть вызвано чрезмерно большим(малым) количеством ключевых слов в запросе, повторами синонимов и т.п., а также неудачной формулировкой самого запроса вследствие недостаточного понимания предмета поиска. Поэтому применение какой-либо конкретной поисковой системы требует разработки предварительной методики поиска.

На сегодняшний день существует ряд поисковых систем, наиболее известными являются Lycos, WebCrawler, InfoSeek для поиска документов, DejaNews. для поиска информации в группах новостей Usenet, Veronika для осуществления поиска в Gopher-пространстве, причем некоторые системы,такие как Yahoo.при необходимости могут <подгружать> другие системы, например Lycos.

WebCrawler : Эта поисковая система разработана Брайаном Пинкертоном из Вашингтонского Университета. WebCrawlerсостоит из базы данных, созданной программой-роботом WebCrawler, который периодически <обходит> WWW, собирает и индексируе документы с использованием текстовых ссылок на них. К концу 1994 года база данных WebCrawler содержала около 350000 указателей на Web-страницы. Для определения степени релевантности найденного по ключевому слову документа используется система, аналогичная WAIS.

All-in-One Search Page: Эта страница предназначена для осуществления поиска в более чемста базах данных Интернет, включая индексные базы данных WWW, хранилища бесплатных и условно-бесплатных программ, списки адресов электронной почты и словари. Следует отметить, что, несмотря на удобство использования, некоторая часть базы данных не доработана до конца. Автор страницы- Уильям Кросс.

Yahoo : Yahoo представляет собой крупнейший предметный каталог ресурсов WWW. Авторы- David Filo и Jerry Jang, оба создали весьма внушительную и вместе с тем довольно забавную систему поиска нужной информации. Название системы было позаимствовано у Джонатана Свифта: йеху, весьма несимпатичные человекоподобные персонажи из страны Гуигнмов(Лошадей), в конце концов довели бедного Ламюэля Гулливера почти до сумасшествия.

The WWW Virtual Library: Впечатляющий пример использования действительно всеобъемлющего характера Интернет: свыше 50 предметно-ориентированных каталогов, разработанных и поддерживаемых независимо друг от друга, объединены на сервере W3-консорциума.

DejaNews: Великолепное средство для поиска информации в обширнейшем архиве Usenet - по ключевому слову, фамилии автора и дате публикации. Архив обновляется каждые 2 дня и охватывает сотни групп новостей с глубиной в один месяц. Примечательно, что такие слишком уж <неформальные> группы новостей, как alt.*, talk.*, *.binaries, исключены из архива.

LYCOS: одна из наиболее мощных и исчерпывающих систем содержит индексы более чем 7 млн.страниц,где хранится свыше 90% содержательного материала Web.Lycos основана в Мальборо(Массачусетсе,США).Будучи абсолютно бесплатной службой для пользователей, она обслуживает более 30 млн. запросов в месяц, что делает ее одной из самых популярных служб на WWW.LYCOS поддерживается на средства Carnegie Mellon University. Point, дочерняя компания LYCOS, является издателем первого обзора on-line и руководства оценки для Internet (Point Survey).В настоящее время Point обрабатывает 6 млн. ответных справок (на запрос) в месяц. Кроме того, недавно образованная и бесплатная служба Point Now обеспечивает обновление новостей и статей со всего мира, представляющих собой интерес , наряду с объявлениями по множеству специализированных предметных областей.

LYCOS и Point получают денежные средства от продажи объявлений,LYCOS дополнительно получает доход от лицензий на использование своей технологии и каталога Internet таким компаниям, как , .LYCOS заиндексировала свыше 11млн. страниц по всему миру.Никакой другой каталог или справочник даже не приближается к этому показателю.LYCOS обладает самой быстрой и наиболее мощной технологией поиска и индексирования. Используя технологию сделанных заявок на патент, <паук> LYCOS постоянно производит выборки на Web и объединяет результаты поиска в каталог LYCOS , который еженедельно увеличивается более чем на 300 тыс. страниц.В отличие от других ,LYCOS индексирует и нетекстовые ресурсы Internet , включая графику, звуки, фильм и исполняемые программы, не индексируя недолговечные или изменяющиеся данные. Кроме того, LYCOS игнорирует файлы, начинающиеся на

и заканчивающиеся следующими расширениями: AU, AVI, BIN, DAT, DVI, EXE, FLI, GIF, GZ, HDF, HOX, JPEG, LHA,MAC, MPEG, PS, TAR, TGA, TIFF, UU, UUE, WAV, Z или ZIP.

Используя свою технологию LYCOS автоматически создает аннотацию из наиболее популярных узлов, позволяя быстро и эффективно определить, какие узлы наиболее адекватны пользовательским запросам.

Планируется модернизировать язык механизма поиска, включая больше стандартных операторов, кроме того, будут добавлены в систему коррекция орфографии и семантические средства.




1. задание может проводиться под диктовку при этом каждый ряд слов повторяется дважды медленно после паузы в 5
2. Контрольная работа по Русскому языку и культуре речиВариант 11Выполнил- студент 1 курса специальности- Юри
3. реферат дисертації на здобуття наукового ступеня кандидата педагогічних наук Київ ~2000
4. Расчет технико-экономических показателей лесосечных работ
5. по теме In der Stdt Wer wohnt hierldquo; Учитель немецкого языка Лосева Г
6. Эвфемизмы в современной русской речи на примере материалов печатных и электронных российских СМИ
7. Тема 6 Статистика оплаты труда 6
8. Реферат Екологія і людина- взаємозв~язок.html
9. День открытых дверей 16 января ~ 31 января 2014 года с предоставлением бесплатных услуг
10.  В общественном сознании содержатся устойчивые представления связанные с некоторой системой норм и принцип
11. Тема- Расчёт основных параметров активной виброизоляции Исполнитель студент 4 курса группы 2
12. Современные тенденции развития русской литературы Курсовая работа студентки V курса очного отде
13. Сутність маркетингу та його сучасна концепція
14. тема являющаяся компонентом более сложных систем ~ биологической и социальной.html
15. ЛАБОРАТОРНАЯ РАБОТА 1 2 Расчет и оптимизация частотного плана РЧ блока устройств ССПО Вариант 9 ~ но
16. РЕФЕРАТ Курсовая работа- 53 с
17. Изображение наружной резьбы Изображение резьбы содержит линии соответствующие оси резьбы наружному и в.html
18. Статья- Социальная монополия- к постановке проблемы
19. Білки складання меню
20. Timken США в высшей степени автоматизирован