Будь умным!


У вас вопросы?
У нас ответы:) SamZan.ru

Лабораторная работа 7

Работа добавлена на сайт samzan.ru: 2016-06-20


Лабораторная работа № 7. Поиск информации в Интернет. Исследование эффективности поиска

Цель работы

Получить основные навыки поиска информации в Интернет, изучить популярные поисковые системы, определить (сформулировать) критерии эффективности поиска в них и определить наиболее эффективную поисковую систему в Интернет.

Общие сведения

Информационный поиск

Информационный поиск – это отрасль знания, которая занимается представлением, хранением и доступом к информационным ресурсам.

Информационный ресурс – это любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание. Наряду с информационным ресурсом, в информационном поиске также используется понятие «документ». Под документом чаще всего понимается содержательно законченный текстовый информационный ресурс, который можно каким-либо образом уникально идентифицировать.

Информационно-поисковая система (ИПС) представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям.

ИПС работают с множествами документов, которые называются также коллекциями документов. Примерами таких множеств могут служить электронная библиотека, русскоязычная часть Интернета, энциклопедия на лазерном диске.

Информационная потребность пользователя

В определенный момент времени у пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка.

В начальный момент эта потребность часто не может быть точно выражена словами. При этом любая поисковая система требует достаточно четких запросов. Следовательно, пользователь должен представить свою информационную потребность в виде некоторого выражения, которое может быть воспринято поисковой системой.

Выделяют четыре этапа представления информационной потребности:

реальная информационная потребность – это неосознанная истинная информационная потребность пользователя (потребность в некоторой новой информации при решении стоящей перед пользователем задачи);

осознанная информационная потребность – появляется после осознания пользователем стоящей перед ним проблемы (осознанная потребность отличается от реальной, более того, пользователь может понимать имеющуюся проблему неправильно);

выраженная информационная потребность – результат описания осознанной информационной потребности с помощью естественного языка;

формализованная информационная потребность – это результат представления выраженной потребности средствами формального поискового языка ИПС.

Информационная потребность, сформулированная на информационно-поисковом языке, называется запросом. Запрос поступает в ИПС, и система возвращает некоторый ответ. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью.

Релевантность

Релевантность – это фундаментальное понятие теории информационного поиска. Наиболее часто используются следующие виды релевантности:

Когнитивная релевантность, или пертинентность – характеризует степень соответствия информации из документа и реальной информационной потребности пользователя. Это истинная и наиболее трудноопределимая релевантность. Все остальные виды релевантности являются ее приближениями.

Тематическая (предметная) релевантность – характеризует степень близости предмета (тематики) информационной потребности и найденного документа. Под тематикой здесь понимается область интересов пользователя, в пределах которой существует его информационная потребность.

Ситуационная релевантность – определяет полезность информационного ресурса для задачи, решаемой пользователем, с точки зрения временных затрат, способа взаимодействия пользователя с системой и т. п.

Системная (алгоритмическая) релевантность – характеризует степень близости между формализованной информационной потребностью (запросом) и найденным поисковой системой документом.

Теоретически релевантность можно измерить некоторым числом в интервале от нуля (полностью непертинентный документ) до единицы (полностью пертинентный документ). На практике же релевантность в основном определяется при оценке просматриваемых документов – подходит ли данный документ пользователю или не подходит. Таким образом, релевантность обычно характеризуется бинарным значением.

Существуют также методы оценки релевантности по многозначной шкале. В этом случае коллектив экспертов просматривает доступные документы и присваивает каждому из них некоторое значение релевантности, которое определяется для каждого запроса. Такая методика используется главным образом при сравнении эффективности нескольких поисковых систем.

Один и тот же документ может быть релевантным согласно одному определению релевантности и нерелевантным согласно другому. Так, документ, релевантный алгоритмически, может оказаться непертинентным. Например, если в неспециализированной ИПС искать информацию о компьютерных манипуляторах типа "мышь" и использовать для этого запрос, состоящий из слова "мышь", то велика вероятность получения ряда непертинентных документов из области зоологии и географии, описывающих мышей-грызунов. При этом найденные непертинентные документы формально будут соответствовать запросу, так как в их тексте содержится термин запроса – "мышь".

Качество поиска в информационно-поисковых системах обычно характеризуется двумя критериями – полнотой и точностью. Полнота поиска определяется общим количеством найденных документов, а точность – соотношением между найденными релевантными и нерелевантными документами. Из-за многозначности определения релевантности абсолютного критерия точности поиска не существует, и в результатах любого поиска всегда присутствуют как релевантные, так и нерелевантные документы.

Нерелевантные документы, которые сравниваются с релевантными, иногда называются шумом, по аналогии с теорией передачи информации К. Шеннона. Релевантные документы в таком случае можно называть сигналом, а эффективность поиска оценивать по соотношению "сигнал - шум".

Поиск в Интернет

Для поиска нужной информации в Интернете существует отдельный вид сетевых сервисов – поисковые серверы, или поисковые машины.

Среди поисковых серверов принято различать поисковые индексы и каталоги.

Серверы-индексы работают следующим образом: регулярно прочитывают содержание большинства веб-страниц сети ("индексируют" их), и помещают их полностью или частично в общую базу данных. Пользователи поискового сервера имеют возможность осуществлять поиск по этой базе данных, используя ключевые слова, относящиеся к интересующей их теме. Выдача результатов поиска обычно состоит из выдержек рекомендуемых вниманию пользователя страниц и их адресов (URL), оформленных в виде гиперссылок. Работать с поисковыми серверами этого типа удобно в том случае, если имеется четкое представление о предмете поиска.

Серверы-каталоги представляют собой многоуровневую классификацию ссылок, построенную по принципу "от общего к частному". Иногда ссылки сопровождаются кратким описанием ресурса. Как правило, возможен поиск в названиях рубрик (категориях) и описаниях ресурсов по ключевым словам. Каталогами пользуются тогда, когда не вполне четко знают, что именно ищут. Переходя от самых общих категорий к более частным, можно определить, с каким именно ресурсом сети следует ознакомиться.

Современные поисковые серверы предлагают и полнотекстовый поиск, и поиск по категориям, сочетая в себе, достоинства индексирующего сервера и сервера-каталога.

Работа с поисковыми серверами состоит в следующем. В адресной строке браузера набираете его адрес, в строке запроса набираете на нужном языке ключевые слова или фразу, соответствующие ресурсу или ресурсам сети, которые вы хотите найти. Затем нажимаете мышью на кнопку "Поиск" и в рабочее окно браузера загружается первая страница с результатами поиска. Обычно поисковый сервер выдает результаты поиска небольшими порциями, например, по 10 на одну страницу выдачи. Под списком рекомендуемых ссылок будет находиться ссылка, предлагающая перейти к следующей "порции" результатов поиска.

Формирование запросов является ключевым моментом при работе с поисковым сервером. С первого раза удачно задать вопрос поисковому серверу получается не всегда. Если запрос короткий и в нем присутствуют только часто употребляемые слова, может быть найдено очень много документов. Наоборот, если запрос окажется слишком детализированным или в нем будут использованы очень редкие слова, вы увидите сообщение о том, что ресурсов, отвечающих вашему запросу, в базе сервера не найдено. Постепенное сужение или расширение фокуса поиска через увеличение или уменьшение списка ключевых слов, замена неудачных поисковых терминов на более удачные помогут улучшить результаты поиска.

Ключевые слова, составляющие поисковый запрос, обычно просто разделяются пробелами. Необходимо помнить, что различные поисковые сервера по-разному интерпретируют это. Некоторые из них отбирают по такому запросу только документы, содержащие все ключевые слова, то есть воспринимают пробел в запросе как логическую связку "и". Некоторые интерпретируют пробел как логическое "или" и ищут документы, содержащие хотя бы одно из ключевых слов.  При формировании поискового запроса большинство серверов позволяют в явном виде указать логические связки, объединяющие ключевые слова, и задать некоторые другие параметры поиска. Логические связки обычно обозначаются с помощью английских слов "AND", "OR", "NOT". На разных поисковых серверах при формировании расширенного поискового запроса используется разный синтаксис – так называемый язык запросов. С помощью языка запроса вы можете указать, какие слова обязательно должны встретиться в документе, каких быть не должно, какие желательны.

Как правило, современные поисковые машины используют при поиске все возможные словоформы использованных слов. Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы: например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д.

Обычно на титульной странице поискового сервера присутствует ссылка "Помощь" (англ. "Help"), обратившись по которой пользователь может ознакомится с правилами поиска и языком запросов, используемых на данном сервере.

Порядок выполнения

Ознакомиться с общими сведениями о предмете лабораторной работы (см. выше в описании данной работы) и рекомендуемыми дополнительными материалами.

Уяснить цель работы.

Подготовить необходимые программные и технические средства

Приступить к выполнению работы:

Изучить возможности следующих поисковых систем Интернет:

http://www.aport.ru  

http://www.google.com 

http://www.mail.ru

http://www.rambler.ru  

http://www.yahoo.com 

http://www.yandex.ru 

Примечание: список исследуемых поисковых систем может быть расширен.

При изучении функций и возможностей исследуемых поисковых систем следует использовать доступную документацию и интерактивные справочные системы.

Принять список критериев оценки эффективности поисковых систем.

Предлагаются следующие критерии:

Полнота поиска.

Точность поиска.

Назначить весовые коэффициенты (веса) принятым критериям. Весовой коэффициент - параметр, отражающий значимость, относительную важность, «вес» данного критерия в сравнении с другими критериями. Например, для точности поиска весовой коэффициент принимаем равным 0.8, для полноты  поиска – 0.2. Сумма всех весов должна быть равной 1.

Принять список тем запросов для оценки эффективности поисковых систем.

Предлагаются следующие темы:

Информатика. Вычислительная техника. Электроника.

Биология. Охрана природы. Экология.

Философия. История. Культура. Наука. Образование.

Математика. Физика.

Машиностроение. Механика. Детали машин. Станки и инструменты.

Строительство. Архитектура. Строительные материалы и изделия.

Технология металлов. Металлургия.

Транспорт.

Туризм. Спорт.

Химия. Химические технологии.

Сформулировать запросы по каждой теме. Запрос должен включать в себя несколько (не менее двух) ключевых слов и относиться к данной теме. Примеры запросов: "автомобили ВАЗ", "материалы ремонт квартира июль", "горные лыжи Кавказ" и т.п.

Выполнить каждый запрос в каждой исследуемой поисковой системе.

Если результаты поиска в какой-либо поисковой системе Вас не удовлетворили, сформируйте более точный запрос (изменив или добавив ключевые слова), позволяющий найти исчерпывающую информацию об объекте. Повторите поиск в каждой поисковой системе.

Из полученных списков результатов выбрать следующую информацию:

Общее количество найденных документов (Д).

Количество релевантных документов различной ценности (РД)

При определении количества релевантных документов должно быть использовано понятие "когнитивная релевантность" или "пертинентность" (см. выше в разд. "Общие сведения" описания работы). Количество релевантных документов оценивается при просмотре текста первых 10 найденных документов. При этом определяется ценность найденной информации (степень удовлетворения найденном документом Ваших информационных потребностей). Ценность информации определяется по 3-бальной шкале: 2 - имеет ценность, 1 - имеет частичную ценность, 0 - не имеет ценности.

Результаты выполнения запросов свести в табл. 2.1.

Таблица 7.1

Лабораторная работа №2. Результаты выполнения запросов

Тема

Aport

Google

Mail.ru

Rambler

Yahoo!

Yandex

Д

РД

Д

РД

Д

РД

Д

РД

Д

РД

Д

РД

2

1

0

2

1

0

2

1

0

2

1

0

2

1

0

2

1

0

Информатика. Вычислительная техника. Электроника.

Запрос: "…"

Биология. Охрана природы. Экология.

Запрос: "…"

Философия. История. Культура. Наука. Образование.

Запрос: "…"

Математика. Физика.

Запрос: "…"

Машиностроение. Детали машин. Станки и инструменты.

Запрос: "…"

Строительство. Архитектура. Строительные материалы и изделия.

Запрос: "…"

Технология металлов. Металлургия.

Запрос: "…"

Транспорт.

Запрос: "…"

Туризм. Спорт.

Запрос: "…"

Химия. Химические технологии.

Запрос: "…"

Выполнить первичную обработку результатов, сведя их в табл. 2.2:

Вычислить средние арифметические значения показателей Д, РД(2), РД(1) и РД(0) для каждой поисковой системы.

Определить место каждой поисковой системы по критерию "Полнота поиска". Для определения места использовать среднее количество найденных документов Д. Система, которая нашла больше документов, считается лучшей. Самой лучшей системе присваивается место 1, самой худшей – место N (N – количество исследуемых систем).  

Для каждой поисковой системы ЭБ определить коэффициент точности поиска P для каждой системы по следующей формуле:

где

a – число релевантных документов, выданных поисковой системой в ответ на запрос,

a = РД(2) + 0.5 * РД(1);

b - число нерелевантных документов, выданных поисковой системой в ответ на запрос, b = РД(0).

Определить место каждой поисковой системы по критерию "Точность поиска". Система, имеющая большее значение коэффициента точности поиска P, считается лучшей. Самой лучшей системе присваивается место 1, самой худшей – место N (N – количество исследуемых систем).

Вычислить коэффициент поискового шума S по следующей формуле:

 

Вычислить сумму мест каждой исследуемой системы R по следующей формуле:

где

 m - количество критериев оценки,

 i  - номер критерия оценки поисковой системы,

- весовой коэффициент для критерия оценки i,

- место поисковой системы по критерию оценки i.

N - количество исследуемых систем.

Определить лучшую поисковую систему Интернет из исследуемых.

Оформить результаты работы по предлагаемой форме.

Оформление результатов

В качестве предварительной информации привести заполненную табл. 2.1.

Основные результаты работы оформить в виде табл. 2.2.

Таблица 7.2

Лабораторная работа №2. Результаты сравнительного анализа поисковых систем Интернет

Критерий

Aport

Google

Mail.ru

Rambler

Yahoo!

Yandex

Полнота поиска  (вес - …) - среднее количество найденных документов (Д)

Место (полнота поиска)

Среднее количество пертинентных документов (РД2)

Среднее количество частично пертинентных документов (РД1)

Среднее количество непертинентных документов (РД0)

Коэффициент точности поиска P (вес - …)

Место (точность поиска)

Коэффициент поискового шума (S)

Сумма мест (R)

Формулировка выводов

Достигнута ли цель работы?

Приемлема ли точность значений количественных и качественных характеристик, полученных в ходе выполнения работы?

Предложения по повышению точности результатов.

Предложения по расширению (изменению) состава сравниваемых характеристик.




1. Родные места В родных местах ромашкой пахнет ветерИ до травинки вся земля своя
2. Задание С Как писать сочинение по данному тексту
3. тематизирует и обобщает разрозненные факты; изучает передовой педагогический опыт; описывает различн1
4. условия реакции регулируемые технологическими параметрами температура давление время реакции здесь м
5. Фаско в зеленым или синем пакете.html
6. реферат дисертації на здобуття наукового ступеня доктора економічних наук Львів 2005 Дисертацією є.html
7. Реферат- Договор контокоррента
8. Реферат О правилах смены темы в спонтанном диалоге
9. Системы счисления и коды
10.  Сущность финансового контроля и его развитие в условиях перехода к рыночной экономике Финансовый контрол
11. секретарь Непременного совета М
12. реферат дисертації на здобуття наукового ступеня кандидата технічних наук Херсон ~
13. ученик Можно считать это рождением социального Я ребенка
14. Семья и права ребенка
15. перераспределение национального дохода и ВВП которое влияет на государственное регулирование и стимулиро
16. О выплате пенсий гражданам выезжающим на постоянное жительство за пределы Российской Федерации1
17. Аудит как метод исследования
18. ПО ТЕМЕ- Проблемы трудоустройства молодежи Выполнили Студенты группы ЛХ32 Музыченко Иван Па
19. Тема- Почерк особистість та характер людини План 1
20. Основание новой науки об общей природе наций вышедший в 1725 1730 и 1745 гг