|
|
Технология поиска документальной информации в internetАННОТАЦИЯ Курсовой проект по дисциплине "Информационно-поисковые системы" на тему: "Технология поиска документальной информации в INTERNET" состоит из введения, трех разделов основной части, заключения и списка используемой литературы. Работа изложена на 34 страницах машинописного текста. В работе приведено краткое описание сети INTERNET, технология поиска информации в INTERNET, рассмотрены наиболее распространенные поисковые службы, описаны основные приемы поиска. РЕФЕРАТ Объектом исследования в данной работе является глобальная информационная сеть INTERNET. Цель работы - изучение технологии поиска документальной информации с использованием поисковых служб сети INTERNET. Методы исследования - анализ литературных источников и поисковых систем сети INTERNET. Полученные результаты и их новизна - описаны технологии и охарактеризованы приемы поиска документальной информации в глобальной сети INTERNET. Область применения - результаты работы могут быть использованы как при изучении основ работы с INTERNET, так и в прикладной деятельности. Прогноз развития - ежегодное увеличение количества клиентов сети INTERNET составляет около 80%, причем наблюдается не только количественный, но и качественный рост - увеличивается не только число поисковых систем, но и сервисные возможности поисковых систем INTERNET. При выполнении работы использовалась специальная литература и справочные службы поисковых систем INTERNET. КЛЮЧЕВЫЕ СЛОВА конференция Usenet, технологии WWW(World Wide Web) - "всемирная паутина", Web-страница, поисковая система PointCast Client, URL адреса, тематический каталог Yahoo!, поисковая машина AltaVista, сервер Яndex. СОДЕРЖАНИЕ ВВЕДЕНИЕ 6 1. ТЕХНОЛОГИЯ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТ 8 1.1. Поисковые службы. 9 1.2. Что такое поисковые индексы и каталоги. 10 1.3. Индексы. 11 1.4. Составители каталогов. 13 2. ПОПУЛЯРНЫЕ ПОИСКОВЫЕ СЛУЖБЫ 14 2.1. Тематические каталоги. 15 2.2. Роботы индексов или поисковые машины. 16 2.3. Системы мета-поиска. 18 2.4. Системы поиска в конференциях Usenet. 18 2.5. Службы поиска людей. 21 3. ПРИЕМЫ ЭФФЕКТИВНОГО ПОИСКА 23 3.1. Практические аспекты использования поисковых сервисов Интернет. 26 3.2. Составление ссылки из имени организации. 27 3.3. Нахождение информации с применением серверов глобального поиска. 28 3.4. Нахождение информационных ресурсов в каталогах. 29 3.5. Сопоставление поисковых серверов и каталогов. 30 ЗАКЛЮЧЕНИЕ 32 ЛИТЕРАТУРА 33 ВВЕДЕНИЕ Сегодня каждый день множество людей неожиданно открывает для себя существование глобальных компьютерных сетей, объединяющих компьютеры во всем мире в едином информационном пространстве, имя которому - INTERNET. INTERNET многогранен и нельзя четко определить, что это такое. С технической точки зрения, INTERNET - объединение транснациональных компьютерных сетей, работающих по самым разнообразным протоколам, связывающих всевозможные типы компьютеров, физически передающих данные по телефонным проводам и оптоволокну, через спутники и радиомодемы. Сегодня практически любой человек, обладающий доступом к компьютеру с простейшим модемом, может использовать в своей деятельности огромные информационные ресурсы, предоставляемые INTERNET. Итак, INTERNET - сеть сетей, всемирная компьютерная сеть. INTERNET можно рассматривать с многих позиций, вот две крайние из них. Наиболее узкое рассмотрение - объединение сетей, связанных между собой так, что в любой момент каждый компьютер в INTERNET "видит" каждый другой (то есть может передать ему пакет данных и получить ответ за доли секунды). Наиболее широкое - киберпространство, рождающее киберкультуру со своим образом мысли, своим языком, своей этикой. INTERNET замечателен тем, что сеть и ее сервисы стали широко распространены в жизни общества, что они оказались достаточно хороши, чтобы река информации потекла руслом INTERNET. INTERNET не решил проблему хранения и упорядочения информации, но решил проблему ее передачи - дал возможность получить любую информацию где угодно, когда угодно. Эта замечательная способность передачи информации привела к грандиозным темпам роста INTERNET. Вследствие децентрализованности, нельзя точно сказать, каковы его размеры сегодня, но по оценкам "Network Wizards", количество компьютеров, полноценно подключенных в INTERNET, последние два года ежегодно удваивается. Это значит, что если скорость роста INTERNET останется на том же уровне, то в течение ближайших лет INTERNET и его сервисы станут столь же общеупотребительными, как телефон и телевидение сегодня. Очень многие компании понимают это, и, стремясь первыми прийти на этот рынок (а INTERNET представляет собой, помимо всего прочего, еще и огромный рынок миллионов потенциальных клиентов), вкладывают деньги в развитие сети и сервисов, ей предоставляемых. А деньги, как известно, делают деньги, и это является еще одним фактором, ускоряющим развитие сети. Коммерциализация INTERNET - это, возможно, самый важный аспект его развития сегодня. Долгое время, до весны 1995 года, основные каналы связи и административные структуры INTERNET финансировались Национальным научным фондом США, но теперь финансирование прекращено и развитие сети происходит на коммерческой основе. Чтобы жить в городе, нужно уметь пользоваться транспортом. Для каждой поездки выбирают свой вид транспорта. За город ездят на электричках, в аэропорт можно поехать на маршрутном такси, до метро можно доехать на троллейбусе. INTERNET в этом плане очень похож на город. Чтобы успешно работать с ним, нужно знать правила поведения в сети и уметь ориентироваться в множестве доступных Вам информационных сервисов. Увы, ввиду децентрализованности и молодости INTERNET, не существует единой его карты или путеводителя по всем его сервисам. Эффективность работы в сети определяется знанием существующих сервисов, умением обращаться с конкретными сервисами и способностью выбрать правильный способ решения конкретной задачи. Этим определяется не только то, как скоро можно найти нужную информацию, но и то, можно ли ее найти вообще. 1. ТЕХНОЛОГИЯ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТ Сегодня INTERNET объединяет множество разных сетей, миллионы компьютеров, около 500 миллионов пользователей всех континентов и, по разным оценкам, число таких пользователей увеличивается на 15-80% ежегодно. Можно выделить два основных направления в использовании INTERNET в бизнесе. Это оперативный доступ к поистине необозримым кладезям информации по любой тематике (на сотнях тысяч информационных серверов), поиск и интерактивное общение с партнерами, практически в любой специализации и географическом расположении. Как сориентироваться в столь масштабном информационном пространстве? Для этого существуют специализированные поисковые сервера. Их можно разделить на тематические каталоги, роботы индексов (поисковые машины), системы мета-поиска. Также, для поиска необходимой информации в Интернет весьма полезны системы поиска в конференциях Usenet и службы поиска людей. Стандартная технология поиска информации, реализованная, например, в протоколе Gopher, основывается на "деревьях". Примером реализации этой технологии могут служить также индексные файлы систем управления базами данных - "бинарные деревья". В тех случаях, когда поиск осуществляется автоматически на основе строгого алгоритма выбора дальнейшего пути поиска, технология, основанная на "деревьях" обеспечивает наилучшие результаты. Но в тех случаях, когда выбор осуществляет человек, не совсем ясно представляющий что он ищет, такой способ поиска часто будет приводить в тупики т.е. к информации не полной или вообще в данный момент не нужной. В таких случаях поиск приходится начинать сначала. Основная идея, реализованная в технологии WWW(World Wide Web), состоит в том, чтобы каждый объект поиска имел ссылки на ассоциативно связанные с ним объекты. Причем в сети INTERNET такие ссылки может определять любой пользователь сети. В этом случае поиск не может закончиться тупиком и нужная информация может быть найдена при движении по разным путям. Такая система поиска больше напоминает паутину, чем дерево и именно эта ассоциация лежит в основе названия технологии WWW - "всемирная паутина". Технология WWW была разработана в Европейском центре ядерных исследований (CERN) и основывается на архитектуре клиент-сервер. Программа броузер выполняет роль клиента, с ее помощью можно соединиться с программой-сервером (Web- страницей), находящейся в любом месте сети INTERNET. При нахождении необходимой информации, она передается программе-клиенту. При отсутствии нужной информации программе-клиенту передаются ссылки на другие серверы и так до тех пор, пока искомые сведения не будут найдены. Web содержит миллионы документов, однако прямой доступ возможен лишь к тем немногим источникам, на которые есть ссылки на открытой в данный момент странице. При этом подавляющее число документов Web остается вне поля зрения. Чтобы исправить подобную ситуацию, предусмотрительные программисты разработали целый ряд служб, в которые заложен тот или иной метод поиска документов, не имеющий прямых ссылок. 1.1. Поисковые службы. Общим подходом для всех служб является поиск по заданным пользователем ключевым словам. Наличие заданных ключевых слов проверяется в теле документа, его заголовке или ссылках. В ходе поиска формируется Web-страница результатов, содержащая адреса URL, названия и краткие описания найденных источников. Общая последовательность работы со всеми службами одинакова. 1. Откройте начальную страницу службы. 2. Введите ключевые слова для поиска и нажмите 3. Обнаружив в списке нужный источник, щелкните на ссылке. Броузер откроет соответствующую Web-страницу. По способу поиска и организации результатов все программы поиска можно разбить на две группы. Системы индексирования (search index) проводят поиск по заданным пользователем ключевым словам. Составители каталогов (search directory) организуют Web-страницы в систему иерархически связанных разделов. Способов поиска в такой системе много, включая перемещение по ссылкам от разделов высшего к разделам низших уровней. И те, и другие выводят результаты, используя базу данных, которую составляют, периодически совершая рейды по сети. 1.2. Что такое поисковые индексы и каталоги. Индекс используется для поиска Web-страниц по ключевым словам, каталог - по разделам, систематизированным по иерархическим рубрикам. Броузеры имеют встроенные средства поиска документов. И NetScape Navigator, и Microsoft Internet Explorer имеют встроенные средства, позволяющие быстро находить нужные страницы. Поисковая система - мощный инструмент, позволяющий узнавать обо всем на свете: от результатов последних спортивных матчей до ежедневных происшествий. Благодаря правильно организованному средству поиска Web становится неотъемлемой частью повседневной жизни пользователя. PointCast Client - одна из лучших поисковых систем, позволяющая получать последние новости прямо на рабочий стол компьютера. А главное, она абсолютно бесплатная! Возможности мощных систем поиска выходят далеко за пределы простого умения находить Web-страницы. Многие из них имеют встроенные средства поиска адресов электронной почты, телефонных номеров и сообщений групп новостей. Некоторые позволяют находить географические карты, например, подробные планы городов. 1.3. Индексы. Появление индекса является результатом работы трех элементов программы индексирования. Схема взаимодействия между ними представлена на рис. 1. Собственно поиск по ключевым словам выполняет поисковая система (search engine). Именно к этой части программы индексирования обращается пользователь, задавая условие поиска в строке для ключевых слов. Поиск проходит в организованной программой базе данных. Совокупность найденных ссылок и адресов URL оформляется в виде Web-страницы результатов. Системы различаются своими возможностями. Некоторые из них поддерживают использование ключевых выражениях булевых операторов, позволяя существенно сузить область поиска. Другие, напротив, собирают всё, что содержит по крайней мере одно из заданных ключевых слов. Рис. 1. Поисковая система - единственный элемент программы индексирования, с которым пользователь взаимодействует непосредственно. "Паук " (spider) (иногда называемый также "червем" (worm) или "гусеницей" (crawler)) должен выявить как можно больше Web-страниц. Для этого он "запоминает" все ссылки на открытые им документы. В обнаруженных таким образом новых страницах вновь отыскиваются и запоминаются ссылки. Эта процедура повторяется до тех пор, пока не будут исчерпаны все источники ссылок. Однако очевидно, что подобный метод не может гарантировать всеобъемлющих результатов: попадет ли тот или иной источник в число собранных "пауком" страниц, целиком зависит от наличия ссылок на него в других документах Web. Всякий раз, когда "паук" находит очередную Web-страницу, составитель индекса (indexer) изучает содержимое, занося слова, найденные в ссылках и тексте страниц, в гигантскую базу данных, уплотнить базу и очистить ее от повторяющихся элементов можно с помощью высокоэффективных алгоритмов строения баз данных, заложенных в составитель индекса. Это несложно, ведь в человеческой речи пока не используются уникальные слова. Составитель индекса должен в итоге создать базу, в которой URL адреса были бы соотнесены с наборами встречающихся в них слов. Если какую-либо Web-страницу не удается найти, это еще не значит, что такой страницы не существует. Многие поисковые системы генерируют списки, в которых родственные темы собраны в разделы, организованные по принципу каталогов (такой принцип заложен, например, в Yahoo!). Если вам не удается найти нужные материалы - скажем, об уходе за йоркширским терьером (grooming Yorkshire Terrier), попробуйте отыскать их по индексу. Вполне возможно, искомая тема обнаружится среди его ссылок. Чтобы повысить эффективность поиска по индексу, сделайте условие поиска более общим и добавьте ключевое слово "index". Так, условие Grooming AND (Yorkie OR "Yorkshire Terrier") следует изменить на Index AND (Yorkie OR Yorkshire). He исключено, что менее конкретное условие Index AND Terrier даст еще лучшие результаты. Если условие выбрано удачно, поисковая система возвратит один или несколько индексов, ссылающихся на страницы о йоркширской породе и терьерах. 1.4. Составители каталогов. На первый взгляд отличить программы индексирования от составителей каталогов трудно. Материя для поиска для обоих инструментов служит содержимое Web-страниц. Однако, в отличие от программ индексирования, составители каталогов не разыскивают все Web - страницы INTERNET. Объектом поиска для них являются адреса URL, которые включаются в систематизированный каталог. Поиск по каталогу можно проводить как с помощью броузера, так и вручную, щелкая на названиях разделов и знакомясь с их содержимым. Тем не менее, несмотря на принципиальные различия в механизмах работы, грань между граммами индексирования и составления каталогов постепенно стирается. Все чаще можно встретить индекс, снабженный средствами построения каталога. Нередко сами Web-страницы в верхней части имеют некое подобие содержания со ссылками на отдельные разделы. 2. ПОПУЛЯРНЫЕ ПОИСКОВЫЕ СЛУЖБЫ Правильный выбор инструмента поиска - ключевой момент поисковой стратегии. Если не помогает одна служба, можно попробовать другие. В табл. 1. дается краткий перечень существующих сегодня в Internet поисковых служб. В правой колонке перечислены названия служб, в левой - задачи, которые они позволяют решать. Таблица 1. Службы поиска в INTERNET Задача Рекомендуемый инструмент Поиск по тематическим разделам Excite, InfoSeek, Yahoo! Поиск страниц пониженного спроса Yahoo! Поиск максимального количества источников, удовлетворяющих заданному условию AltaVista, InfoSeek Поиск по темам и ключевым словам Excite, InfoSeek Поиск по образцу Excite Поиск по именам собственным AltaVista, Excite, InfoSeek Полный обзор Web AltaVista, InfoSeek Просмотр отдельные серверов Excite, InfoSeek Поиск по названиям и URL-адресам AltaVista, Yahoo! Обзор UseNet AltaVista, Excite, InfoSeek Параметры броузера можно изменить так, чтобы некоторая Web-страница отображалась всякий раз, когда происходит запуск Internet (стала начальной страницей по умолчанию). Сделав начальной Web-страницу какой-либо поисковой службы, вы получите немедленный доступ ко всему набору средств поиска, которыми располагает данная служба. Excite, InfoSeek и Yahoo! являются для этого лучшими кандидатами. 2.1. Тематические каталоги. Наиболее популярным во всем мире признан тематический каталог Yahoo!. Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo! предлагает вам воспользоваться иерархическим деревом при поиске информации. То есть вы выбираете сначала общую тематику, удовлетворяющую вашему запросу информации, и далее конкретизируете, следуя подсказкам каталога. В конечно результате вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу. На Yahoo! вы также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Набираете эти слова через пробел в строке ввода на главной странице Yahoo! и нажимаете Enter. Система попытается сама подобрать интересующую вас информацию. Так как Yahoo! система англоязычная, то достаточно удобно использовать Интернет-переводчик, такой как "Сократ Интернет". Если же вы ищите информацию заведомо русскоязычную, то имеет смысл использовать российские каталоги. Принцип работы с ними идентичен, тому который мы рассмотрели на примере с Yahoo!. Здесь стоит отметить первый российский каталог Russia on the Net, один из крупнейших русскоязычных каталогов List.RU, российский вариант Yahoo!. Имеет место, также, каталог "Созвездие Интернет", содержащий только избранные (заявлено как самые интересные) ресурсы. Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернет", где как и в одноименной книге представлена детальная информация о самых разных ресурсах Интернет. В бизнесе также понадобятся каталоги предприятий и каталоги товаров и услуг. Пожалуй, самый крупный каталог предприятий СНГ Партнер. 2.2. Роботы индексов или поисковые машины. Поисковые машины устроены несколько иначе. По сути это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылками и переходя к новым страницам, проделывает с ними тоже самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в INTERNET. Самая популярная поисковая машина AltaVista содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo! и также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ *, расширяющий диапазон поиска. Скажем, что бы Altavista могла найти не только все вхождения слова "легкая", но слова "легкую", "легкой" и т. д., в запросе надо писать "легк**". То есть изменяющиеся буквы окончания заменяем на символ*. Как и предыдущем случае, для поиска в русскоязычном INTERNET Altavista не очень подходит. Если на запрос "Light industry" Altavista формирует список из 2917 URL-адресов, то по запросу "Легкая промышленность" появляется список ссылок на всего 9 сайтов. Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex. В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltaVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким вашим требованиям должна отвечать, интересующая вас информация. Стоит вспомнить о еще одной популярной российской поисковой машине Rambler. У этого сервера еще более полная база данных адресов URL, чем у Яndex. Отличительной чертой Rambler является то, что этот сервер ведет статистику посещаемости ссылок из собственной базы данных. Вы всегда можете зайти в раздел "Рейтинг" на главной странице Rambler и увидеть содержимое тематического каталога, отсортированного по убыванию числа посещений сайтов и следовательно их популярности. Тем самым отсекаются явные аутсайдеры и вы не тратите на них свое время. Rambler также как и Yandex, позволяет, кроме простого запроса, запрос с языком запросов. Поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов. Стоит также отметить прочие русскоязычные поисковые машины Апорт и АУ. Поисковые машины и тематические каталоги сегодня имеют много общего. У каталогов присутствует возможность поиска информации по строке запроса с использованием логических операторов, а поисковые машины содержат свои собственные тематические каталоги. И тем не менее лучше всего эти поисковые сервисы проявляют себя в своей первоначальной категории. 2.3. Системы мета-поиска. Читая обо всех перечисленных поисковых службах, по неволе задумаешься: "а если для поиска необходимой информации не достаточно одной поисковой службы, то неужели придется входить на все здесь перечисленные сервера и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами мета-поиска. Наиболее популярная в мире система такого класса Search.com, но если мы работаем преимущественно с русскоязычными документами, то можно использовать Savvy Search . Это достаточно мощная система отсылающая ваш запрос на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая вам их отчеты. Другая российская система мета поиска "Следопыт" работает только с пятью англоязычными поисковыми машинами и одной русскоязычной, но интересна тем, что переводит ваш русскоязычный запрос на английский язык для англоязычных поисковых машин. Также существуют так называемые мультипоисковые страницы: "Все в одном" ; Search ; БКФ Поиск и другие. Эти сервера не умеют посылать запросы и получать отчеты от поисковых служб как системы мета-поиска. Мультипоисковые страницы загружают во множестве окон поисковые службы и передают им ваш запрос. К тому же такие системы работают не стабильно. 2.4. Системы поиска в конференциях Usenet. Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews. Среди русскоязычных выделяется сервер RusNews, являющийся также новостным сервером, содержащим более 2000 новостных групп. Точно также как и в других поисковых службах мы набираем строку запроса, а сервер нам формирует список конференций, содержащих наши ключевые слова. Далее надо подписаться на отобранные нами конференции в нашей программе работы с новостями. Также имеет место аналогичный российский сервер ТЕЛА-поиск. Сетевые новости Usenet, или, как их принято называть в российских сетях, телеконференции - это, пожалуй, второй по распространенности сервис Интернет. Если электронная почта передает сообщения по принципу "от одного - одному", то сетевые новости передают сообщения "от одного - многим". Механизм передачи каждого сообщения похож на передачу слухов: каждый узел сети, узнавший что-то новое (т.е. получивший новое сообщение), передает новость всем знакомым узлам, т.е. всем тем узлам, с кем он обменивается новостями. Таким образом, посланное Вами сообщение распространяется, многократно дублируясь, по сети, достигая за довольно короткие сроки всех участников телеконференций Usenet во всем мире. При этом в обсуждении интересующей Вас темы может участвовать множество людей, независимо от того, где они находятся физически, и Вы можете найти собеседников для обсуждения самых необычных тем. Число пользователей Usenet весьма велико - по оценкам UUNET technologies, количество новых сообщений, поступающих в телеконференции ежедневно, составляет около миллиона. Новости разделены по иерархически организованным тематическим группам, и имя каждой группы состоит из имен подуровней иерархии, разделенных точками, причем более общий уровень пишется первым. Рассмотрим, например, имя группы новостей comp.sys.sun.admin. Эта группа относится к иерархии верхнего уровня comp, предназначенной для обсуждения всего, связанного с компьютерами. В иерархии comp есть подуровень sys, предназначенный для обсуждения различных компьютерных систем. Далее, sun означает компьютерные системы фирмы Sun Microsystems, а admin обозначает группу, предназначенную для обсуждения вопросов администрирования таких компьютерных систем. Итак, группа comp.sys.sun.admin предназначена для обсуждения вопросов администрирования компьютерных систем фирмы Sun Microsystems. Таким образом, обычно, обладая минимальными знаниями английского языка, можно по имени группы легко понять, что в ней обсуждается. Например, в alt.games.vgaplanets пишут любители игры Vga Planets, а jet.testing предназначена для посылки тестовых сообщений в группу, локальную для компании Jet Infosystems. Существуют глобальные иерархии, как-то comp, и иерархии, локальные для какой-либо организации, страны или сети. Вообще говоря, набор групп, которые получает Ваш локальный сервер Usenet, определяется администратором этого сервера и наличием этих групп на других серверах, с которыми обменивается новостями Ваш сервер. Однако, обычной является ситуация, когда сервер получает, во-первых, все глобальные иерархии, во-вторых, группы, локальные для Вашей страны и сети, и, в-третьих, группы, локальные для Вашей организации. Например, к первой группе относятся иерархии comp, news, misc, alt, rec, ко второй - иерархии relcom и fido7 в России и иерархия de в Германии, к третьей - иерархии jet для Jet Infosystems и cern в CERN. К различным иерархиям применимы различные нормы и правила работы с ними. В первую очередь, это касается языка сообщений - в группы российской иерархии relcom лучше всего писать по-русски, в то время как в группы глобальной иерархии comp можно писать только по-английски. Не всегда в Usenet можно посылать информацию рекламного характера - например, вы можете свободно посылать рекламные сообщения в группы иерархии relcom.commerce, специально для того и созданные, а вот в группы fido7 некоммерческой сети FIDO посылать рекламу строго запрещено. Менее строгими являются ограничения на возможные объемы цитирования предыдущих авторов в Вашем письме, размер подписи Вашего письма и т.д. Начиная работать с какой-либо группой или иерархией групп, в первую очередь нужно прочитать правила работы с ними, которые регулярно помещаются в эти группы человеком, добровольно взявшим на себя обязанности координатора группы (модератора). На самом деле, группы новостей бывают двух типов - модерируемые и обычные. Сообщения, появляющиеся в модерируемых группах, прежде чем быть разосланными по сети, просматриваются модератором. Это, конечно, является своего рода цензурой, но в таком огромном сообществе, как Usenet, невозможно поддерживать порядок без подобных строгостей. Сегодня всякий компьютер, полноценно подключенный к INTERNET, имеет доступ к новостям Usenet, но новости Usenet распространяются и по другим сетям, применяясь столь же широко, как и электронная почта. Способы и удобство работы с новостями сильно зависят от того, каким образом Вы получаете их. В INTERNET Ваша программа-клиент напрямую получает новости с сервера Usenet, и между просмотром списка сообщений, содержащихся в группе, и чтением этих сообщений нет задержки. Если Вы пользуетесь новостями через электронную почту, то Вы сначала получаете список статей, а уже потом принимаете по электронной почте статьи из списка, отдельно Вами заказанные. Такой способ работы с новостями Usenet является сегодня наиболее распространенным в России, но на самом деле это весьма неудобный и устаревший метод. 2.5. Службы поиска людей. У вас появилась возможность работать с электронной почтой, но вы не знаете адресов электронной почты партнеров вашей организации. Благодаря, так называемым, службам поиска людей в INTERNET, указав ФИО вашего оппонента теоретически вы можете получить его адрес электронной почты и URL-адрес. Почему теоретически? Дело в том, что системы поиска людей, в основном берут информацию о электронных адресах из открытых источников, таких как конференции Usenet. Где гарантия, что ваши партнеры участвуют в этих конференциях? И тем не менее рассмотрим некоторые службы поиска людей. В первую очередь, традиционно, о самой популярной англоязычной системе Four 11. Это действительно большой сервер - его база данных содержит порядка 6 000 000 адресов. Среди русскоязычных служб можно выделить Э-Рос и Интермап. 3. ПРИЕМЫ ЭФФЕКТИВНОГО ПОИСКА Разные методики поиска, приводят к различным результатам. Последние, к примеру, зависят от того, какой булев оператор использован в ключевом выражении. Ниже приведено несколько основных правил подбора ключевых слов. чем конкретнее понятие, обозначаемое ключевым словом, тем лучше. Это сужает область поиска и делает его более предметным. К примеру, не следует вводить слово "dog" (собака), если нужно поискать сведения о карликовом пуделе. избегайте общеупотребительных слов. В качестве ключевых бесполезно использовать такие слова, как "that", "the", "program", "internet". Они настолько распространены, что поиск по ним даст многие тысячи страниц. попробуйте разные формы одного и того же ключевого слова. Например, если искомые страницы должны содержать сведения о беге (running), пробуйте поиск по всем трем формам: "run", "runs", "running". не забывайте о синонимах. Так, кроме "running" (бег), можно использовать также "jog" (бег трусцой). В выражениях с булевыми операторами не забывайте разделять синонимы оператором OR. пробуйте разные варианты. Если найденных страниц оказалось слишком много, попробуйте сузить условие поиска. Напротив, если результат слишком скуден, используемое ключевое слово следует заменить более общим понятием. Первый выбор далеко не всегда оптимален. не забывайте добавлять кавычки. Они обязательны, если ключевое слово или выражение представляет собой название. Например, чтобы найти в Internet упоминание о книге, в строке для ключевых слов нужно ввести например: "Special Edition Using the Internet". He забудьте поставить кавычки. учитывайте регистр символов. Результат поиска нередко зависит от того, в каком регистре записано ключевое слово. Так, если оно записано строчными буквами, программа возвращает страницы, где это выражение записано как строчными, так и прописными. Однако если в строку для поиска ввести прописные символы, регистр будет строго соблюден: программа найдет только те страницы, где это выражение целиком записано прописными. Обращайте внимание на специфику используемого инструмента. Некоторые поисковые службы обладают свойствами, значительно облегчающими поиск нужных документов. В этой главе будет рассказано о самых популярных средствах; дополнительные сведения можно найти, щелкнув на ссылках в нижней части начальных страниц этих служб. Если начальная страница службы поиска содержит перечень разделов (topic map), их рекомендуется использовать, так как они помогают в выборе ключевых слов. Перечень разделов содержит список дополнительных ключевых слов (основанный на словах, вводимых пользователем), которые программа рекомендует использовать в поиске, и перечень найденных источников. Использование в ключевых выражениях булевых операторов (AND, OR, NOT) в ключевых выражениях помогает уточнить область и предмет поиска. Хотя наличие заданных ключевых слов поисковая служба проверяет во всех без исключения документах INTERNET, условия поиска можно изменять, задавая способ комбинации нескольких ключевых слов. Например, условием поиска может быть "golf (гольф) в сочетании с "equipment" (снаряжение), "clubs" (клубы), "bags" (сумки), "balls" (мячи) - с одним из этих слов или со всеми одновременно в любых комбинациях. Булевы операторы, которые можно использовать для составления ключевых выражений. Оператор AND между двумя ключевыми словами задает поиск страниц, содержащих одновременно оба слова. По оператору OR будут найдены все страницы, содержащие по крайней мере одно из двух ключевых слов. Если перед ключевым словом стоит оператор NOT, служба поиска найдет страницы, в которых это ключевое слово отсутствует. Булевыми операторами можно объединять несколько слов или выражении, взятых в кавычки. Ниже приводится несколько примеров. • Music AND Celtic Поиск страниц, содержащих оба слова - "Music" и "Celtic". • Honeycutt AND Book AND NOT "Using the Internet" Поиск страниц, содержащих слова "Honeycutt" и "Book", но не содержащих выражения "Using Internet". • Honeycutt OR Que AND Book AND "Using the Internet" Это условие задает поиск страниц, каждая из которых содержит хотя бы одно из двух ключевых слов - "Honeycutt" или "Que", а также слово "Book" и выражение "Using the Internet". • Grooming AND "Yorkshire Terrier" Поиск страниц, в каждой из которых содержится слово "Grooming" и выражение "Yorkshire Terrier" Границы поиска можно сузить, заключив часть условия с оператором в скобки. • "Using the Internet" AND (Second OR Third) Поиск всех страниц, каждая из которых содержит одно из двух слов ("Second" или "Third") и выражение "Using the Internet". • (Grooming OR Care) AND (Yorkie OR Westie) Поиск страниц, в которых содержится хотя бы одно слово из каждой пары: "Yorkie" - "Westie "Grooming" - "Care". • Search AND (Tool OR Index OR Directory) Поиск страниц, содержащих слово "Search" в сочетании с одним из слов "Tool", "Index" или "Director Некоторые средства поиска позволяют однозначно указывать системе, должны ли искомые страницы содержать то или иное ключевое слово. Для этого служат знаки "+" и "-", например +word, -word. 3i "+" показывает, что искомые страницы должны содержать данное ключевое слово, знак "-" задает noi страниц, в которых такое слово отсутствует. Ниже приводятся примеры использования включающих и ключающих символов в ключевых выражениях. • +Honeycutt -Gerald +Jerry По такому условию будут найдены страницы, содержащие слова "Honeycutt" и "Jerry", но не держащие слова "Gerald". • +Book-Plus Это условие определяет поиск страниц, содержащих слово "Book" и не содержащих слова "Pli Это выражение эквивалентно условию "Book AND NOT Plus". 3.1. Практические аспекты использования поисковых сервисов INTERNET. Самым интересной чертой INTERNET является ее полезность. В отличие от других перспективных технологий, использовать глобальную сеть можно уже сейчас. Условно говоря, объем информации, доступной Вам таким образом, гораздо больше доступной традиционными путями. Представление и удобство ее восприятия пока не могут сравниться с книгами или телевидением, но количество и доступность информации в сети несравненно выше. Далее в этой главе рассматриваются ситуации, в которых приводятся примеры использования INTERNET в повседневной деятельности. Они призваны показать, что уже сегодня можно пользоваться информацией, доступной из сети, столь же легко и обыденно, как, скажем, телефоном. Дело здесь только в отношении к инструментам, находящимся в Вашем распоряжении. К сервисам INTERNET (в первую очередь это касается World Wide Web) нужно просто привыкнуть и чувствовать, что они есть под рукой. Если Вам требуется некоторая информация, то, прежде, чем искать справочник или звонить коллеге, оцените, нельзя ли получить ту же информацию в INTERNET. Это может оказаться самым скорым способом, да и вероятность найти нужную информацию больше. С другой стороны, сегодняшний мир стремительно изменяется, знания и данные накапливаются так быстро, что книги просто не могут успеть за ними. INTERNET - источник наиболее свежей информации. Готовить и публиковать ее в электронном виде несравненно быстрее и дешевле, чем традиционными путями. Дальнейшие выводы сделать нетрудно. Если уже сегодня Ваше умение и привычка работать с информацией влияют на скорость и эффективность Вашей работы, то завтра они могут стать определяющими факторами. Некорректным было бы умолчать о слабых сторонах INTERNET как источника информации. В первую очередь, надо иметь в виду, что INTERNET международная сеть. Это значит, что 99 процентов ее документов написаны на английском языке. Это не значит, что в INTERNET нечего делать, не зная его. Конечно, знание английского языка сегодня становится критерием общей грамотности, но мы ведем разговор об информации, ее получении и усвоении. Но хотя и существует некоторое количество русскоязычных серверов, их все же недостаточно, чтобы создать русскоязычную информационную среду. Документ на родном языке читается и воспринимается гораздо быстрее. Так или иначе, тотальная англоязычность INTERNET имеет не только плюсы, но и минусы. Во-вторых, INTERNET - компьютерная сеть, и информация в ней чаще компьютерного плана. Если Вас интересуют компьютеры, Вы наверняка найдете то, что ищете. Если Вы ищете кулинарные рецепты, то вероятность их обнаружения в сети гораздо ниже. Другими словами, насыщенность INTERNET информацией неравномерна для различных областей человеческой деятельности. Хотя реально не проводилось никаких исследований такого рода, но можно предположить, что примерно две трети INTERNET относятся к компьютерам, около трети - к развлечениям (включая новости, спорт, магазины и т.д.), и лишь малая доля ко всему прочему. Такая направленность ограничивает сегодняшнюю применимость сети, и это надо иметь в виду. В большинстве нижеописанных примеров будут использоваться ссылки и документы WWW. Это объясняется тем, что World Wide Web - интегрирующая система, позволяющая обращаться через себя к большинству сервисов INTERNET. 3.2. Составление ссылки из имени организации. Предположим, вы хотите узнать что-то о некоторой американской компании, известной Вам только по имени, например Applix. Неважно, что именно Вас интересует - телефоны, новости, продукты компании - первое, что нужно сделать в такой ситуации - попробовать обратиться по ссылке. Вы заметили соответствие? Обратившись по ссылке www.имя_компании.com, Вы с большой вероятностью попадете на WWW-сервер искомой компании. Это относится не только к компьютерным компаниям. Так, адрес WWW-сервера компании Walt Disney, а сервера химической компании Dow - www.dow.com. В таком имени окончание com значит, что это сервер коммерческой компании, расположенной в США. Серверы правительственных организаций США имеют окончание gov(например, www.whitehouse.gov), а серверы некоммерческих организаций - org, как-то www.greenpeace.org. Если Вас интересует не американская организация, попробуйте добавить в качестве окончания аббревиатуру страны - at для Австрии, de для Германии, ru для России. Этот очень простой метод поиска организаций может оказаться весьма полезным. 3.3. Нахождение информации с применением серверов глобального поиска. Пожалуй, самой полезной чертой INTERNET является наличие в нем поисковых серверов. Это выделенные компьютеры, которые автоматически просматривают все ресурсы INTERNET, которые могут найти, и индексируют их содержание. Затем Вы можете передать такому серверу фразу или набор ключевых слов, описывающих интересующую Вас тему, и сервер возвратит Вам список ресурсов, соответствующих Вашему запросу. Сегодняшние поисковые системы поддерживают индексы, включающие весьма значительную часть ресурсов INTERNET. Таких серверов существует довольно-таки много, более десятка, и вкупе они охватывают практически все доступные ресурсы. К самым популярным я отнес бы InfoSeek, Lycos (lycos.com), WebCrawler (webcrawler.com). Если в INTERNET есть информация, которая Вас интересует, то ее наверняка можно найти при помощи поисковых серверов. Это самое мощное средство нахождения ресурсов в сети (список наиболее популярных смотрите на страничке "Глобальные поисковые системы"). 3.4. Нахождение информационных ресурсов в каталогах. В каталогах INTERNET хранятся тематически систематизированные коллекции ссылок на различные сетевые ресурсы, в первую очередь на документы World Wide Web. Ссылки в такие каталоги заносятся не автоматически, но их администраторами. Более того, занимающиеся этим люди стараются сделать свои коллекции наиболее полными, включающими все доступные ресурсы на каждую тему. В результате пользователю не нужно самому собирать все ссылки по интересующему его вопросу, но достаточно найти этот вопрос в каталоге - работа по поиску и систематизации ссылок уже сделана за него. Каталоги обычно имеют древовидную структуру и похожи на очень большой список закладок, которые наверняка есть в Вашем WWW-навигаторе, вообще говоря, и произойдя от последних. Когда World Wide Web только начинала развиваться, и ее серверы еще можно было пересчитать, некоторые пользователи вели их списки. Со временем WWW-серверов становилось все больше, каждый день появлялись новые, и механизма закладок стало недостаточно для того, чтобы хранить эту информацию. Некоторые пользователи WWW стали создавать специальные программы для поддержания базы данных по ссылкам на ресурсы INTERNET, ее автоматической синхронизации и управления ею. Именно так и родились глобальные каталоги сети, как, например, наиболее известный и крупный - YAHOO. Как правило, хорошие каталоги INTERNET обеспечивают разнообразный дополнительный сервис: поиск по ключевым словам в своей базе данных, списки последних поступлений, списки наиболее интересных из них, выдачу случайной ссылки, автоматическое оповещение по электронной почте о свежих поступлениях. Все это делает использование таких коллекций весьма удобным. 3.5. Сопоставление поисковых серверов и каталогов. Поисковые системы индексируют документы автоматически, не оценивая его завершенности или полезности. Поэтому они могут находить информацию в самых "глухих" углах Интернет. С другой стороны, если Вы неудачно сформулируете Ваш запрос, сервер может и не возвратить ссылки на нужный документ. В этом случае, если Вы определенно знаете, что из себя представляет искомый ресурс, и он наверняка хорошо известен, разумно обратиться к каталогам INTERNET. Это решение также является адекватным в случае, когда Вам требуется наиболее полный список ресурсов по некоторому вопросу. Если же Вам нужна хотя бы одна ссылка, то использовать поисковый сервер гораздо быстрее. Последний разумно также применять в случае, когда вы не знаете точно, что из себя представляет искомый предмет. Это звучит несколько дико, поэтому я приведу пример. Допустим, Вы прочитали в газете, что акции компании XYZ выросли в три раза за день. Но что из себя представляет компания XYZ? Сервера www.xyz.com не оказалось, а искать компанию в каталоге, не зная, чем она занимается, неразумно. Тут как раз и приходит на помощь поисковый сервис, который если и не найдет сервера самой компании (которого может и не существовать), то найдет места, где она упоминается в других документах. Когда же Вас заинтересует, какие изданы книги по языку постскрипт, то ничего не надо искать - достаточно обратиться к одному из каталогов. То есть условно можно сказать, что они - средство сфокусированного поиска информации, а поисковые серверы - рассеянного. Поработав немного с различными каталогами, Вы наверняка выберите из них один, наиболее удобный и симпатичный Вам. Вы научитесь быстро искать в нем информацию, и другие коллекции ссылок Вам уже будут казаться ненужными. С другой стороны, никогда не бывает достаточно одного поискового сервера. Во-первых, разные серверы охватывают различные области информации в INTERNET, частично перекрывающиеся. Они используют различающиеся методы индексирования документов и способы оценки значимости слов в них. Если Вы не нашли искомую информацию при помощи одного из серверов, то достаточно велики шансы найти при помощи другого. Во-вторых, существуют специализированные серверы поиска по отдельным типам ресурсов INTERNET (как, например, система поиска в сетевых новостях DejaNews), а существуют универсальные, охватывающие все виды сервисов. Каталоги и поисковые серверы - две стороны поиска информации в INTERNET. Они разные по методам, но едины в целях. Научившись быстро использовать один, наиболее подходящий для Вас, каталог и несколько хороших поисковых серверов, Вы получите средство быстрого и эффективного нахождения информации в глобальной сети. ЗАКЛЮЧЕНИЕ Итак, если Вы занимаетесь компьютерами и читаете по-английски, INTERNET может служить удобным и эффективным источником информации в Вашей повседневной деятельности. Если Вы начнете пользоваться его ресурсами, то наверняка скоро выработает свои привычки и методы работы в электронном мире. Подводя итог, можно сказать, что единой оптимальной схемы поиска в INTERNET не существует. В зависимости от специфики необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользоваться какой-нибудь одной поисковой системой, например Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска. А в бизнесе качество информации играет далеко не последнюю роль. ЛИТЕРАТУРА "Глобальные сети: информация и средства доступа" (перевод EARN "Guide to Network Resource Tools"), ПГТУ, Пеpмь, 1994 г. Бpежнев А.Ф., Смелянский P.Л., Чумаков Н.Е. Пpотокол TCP/IP // В сб. "Технологии электронных коммуникаций", т. 3, 1999, с. 71-129. URL ftp://ftp.elvis.ru/pub/doc/tcpip/tcp-russ.arj или через WWW: mark-itt.ru/FWO/tcpip/index.html Иванников А.Д., Ижванов Ю.Л., Кулагин В.П. Перспективы использования WWW-технологии в высшей школе России // Информационные технологии, 1996. № 2. С. 24-29. Информатика: учебник / под. ред. проф. Н.В. Макаровой. - М.: Финансы и статистика, 1997. Использование Интернет: Пер. с англ. / Дж. Хоникат, М.Р. Браун, Т. Фронцковяк и др. - 4-е изд. - К.; М.; СПб: Издат. дом "Вильямс", 1998. - 592с.: ил. Левин Д., Бароди К. Секреты Internet: Пер. с англ. К.: "Диалектика", 1996. 544 с. Норенков И.П. По WWW-страницам учебных серверов. Компьютерное учебное пособие "Телекоммуникационные технологии и вычислительные сети" на сервере Центра дистанционного обучения МГТУ им. Н.Э. Баумана // Информационные технологии, 1997. № 3. С. 44-45. Семенов Ю.А. Протоколы и ресурсы Internet. М.: Радио и связь, 1996. 320 с. Спейнаур С., Куэрсиа В. Справочник Web-мастера: Пер. с англ. К.: BHV, 1997. 368 с. Храмцов П.Б. Лабиринт Internet. Практическое руководство. М.: "ЭЛЕКТРОИНФОРМ", 1996. 256 с. Частые Вопpосы и Ответы. Евгений Пескин, Relcom. 1999. URL ftp://ftp.kiae.su/relcom/faq/chawo.arj 31 Работа на этой странице представлена для Вашего ознакомления в текстовом (сокращенном) виде. Для того, чтобы получить полностью оформленную работу в формате Word, со всеми сносками, таблицами, рисунками, графиками, приложениями и т.д., достаточно просто её СКАЧАТЬ. |
|
Copyright © refbank.ru 2005-2024
Все права на представленные на сайте материалы принадлежат refbank.ru. Перепечатка, копирование материалов без разрешения администрации сайта запрещено. |
|