山东省微山县第一中学 龚义
随着因特网的迅速发展, 网上信息以爆炸性的速度不断丰富和扩展,若你想详尽浏览所有计算机上应有尽有的信息, 这无异是痴人说梦。不用担心, 面对信息的“海洋”, 我们有自己的“指南针” ———搜索引擎。它使我们在大量的信息中筛选需要的信息成为可能,本文在简述网络环境下搜索引擎的基本概念及其主要特点.
一、搜索引擎
1.搜索引擎定义
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。其主要任务是在因特网上主动搜索Web 服务器信息形成自动索引, 索引内容存储于可供查询的大型数据库中。当用户输入关键词查询时,该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。
2.搜索引擎的构成搜索引擎主要包括以下五个组成部分:
(1) 搜索引擎的网页搜索程序, 用于搜索和寻找网站和网页;
(2) 收集网页信息和收集来自其他资源的其他网页信息的数据库;
(3) 标引程序, 用于标引数据库中的内容;
(4) “检索引擎”, 即接到提问要求后, 从索引(或数据库) 中检索资料的算法和相关程序;
(5) 图像(HTML) 界面, 收集用户的提问数据, 送到检索搜索引擎。
3. 搜索引擎的基本工作原理
各搜索引擎的工作原理基本上是相同的, 其包括以下三个方面:
(1) 利用“网页搜索程序”在网上搜寻所有信息, 并将它们反馈给搜索引擎。这主要是通过被称为“蜘蛛(spider) ”或“机器人(robots) ”网页搜索软件访问各网址的网页, 并记录下来形成一个详尽的网络目录。
(2) 将信息进行整理分类形成搜索引擎数据库。在此过程中, 不同的系统在反馈检索结果的数量和质量上会有所不同, 有的将对每个站点的每一页的所有内容进行记录; 而其它的则在分析数据库中的地址后, 选择记录最热门站点的信息。被记录信息的主要包括从HTML 标题到整个站点所有文本内容以及经过特定算法处理后的摘要;
(3) 通过Web 服务器端软件, 为用户提供浏览器界面下的信息查询。每个搜索引擎都为用户提供了一个良好的人机对话的界面, 并具有帮助功能。只要在查询输入框中输入想要查找的关键词或短语, 并按“search”按钮。搜索引擎就会根据用户的输入提问, 在索引中查找对应的的词语, 在进行必要的逻辑计算后给出命中结果。用户只需通过搜索引擎提供的超文本链接就可以访问到相关信息。
有人根据搜索引擎的工作原理的不同将其分为全文搜索引擎、目录搜索引擎和元搜索引擎,目前很多搜索引擎都是将这几种工作原理结合使用。
二、优秀搜索引擎所具备的主要特点
1. 支持目录式的分类结构
该结构将信息系统地加以分门归类, 遇到一个网站时,先将该网站划分到某个分类下, 再记录一些摘要信息, 对其进行概述性的简要介绍(如Yahoo 网站) 。而并非是将网站上所有文章和信息都收录进去。该类引擎能使用户方便明了地查找到某一大类信息,与传统信息查找方式相吻合, 尤其适合那些“希望了解某一方面(或某一范围) 的信息, 并不严格限于查询关键词”的用户。但该类引擎搜索范围较全文搜索引擎相比要小很多, 尤其是当用户选择类型不当时, 有可能漏检某些重要信息。
2. 支持全文检索该类引擎优点是有较高的查全率, 能对和网站的每篇文章中的每个词进行搜索, 只要某网页有用户送检的“关键词”就会将该网页作为相匹配的结果反馈给用户。从某方面来说, 它为用户提供了最全面最广泛的搜索结果, 然而正是因为它的结果信息的多而全, 没有分类式搜索引擎那样清晰的层次结构, 其搜索结果给人一种“杂乱繁多”的感觉。
3.提供搜索结果的相关度该类引擎在找到与搜索要求相对应的网站的同时, 按其相关程度(指关键词在文档中出现的频度) 对搜索结果进行排序。但需要注意的是有些文档尽管相关程度较高,但未必是用户所需要的“最好”的文档, 除非你知道要查找的文档的标题。
4.检索方法多样性、查找手段完备性
有些性能完善的搜索引擎不仅能检索因特网上的文献,还能查找公司和个人的信息; 不仅能进行文本检索, 还能进行图像检索: 不仅能检索Web 页面, 还提供对新闻组内文章的查找; 不仅提供输入单词、词组或句子的初级检索方式, 还提供指定多个单词之间的逻辑组配、截词以及相关位置关系等的高级检索方式; 不仅能以词语查询主页信息, 也能以特定的域名、主机名、URL 等查找有关信息;此外, 还可以对被检索文献发表的语种、日期、字母的大小写、显示回复的数量等进行限制。
5.技术不断更新的搜索引擎一个优秀的搜索引擎产品不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量, 不仅查询速度快, 还需具有较好的可维护、可更新性能。其系统稳定可靠性强, 具有完整的容错备份、崩溃修复机制, 即使出错, 也可以及时得到迅速恢复。好在搜索引擎技术发展迅速, 诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。其最新技术发展包括以下几个方面: (1) 提高搜索引擎对用户检索提问的理解。已经出现了自然语言智能答询; (2)对检索结果进行处理。如去掉检索结果中附加的多余信息。出现了基于链接评价和访问大众性的搜索引擎; (3) 确定搜索引擎信息搜集范围, 提高搜索引擎的针对性。出现垂直主题搜索引擎、多媒体搜索引擎、非www 信息(如FTP等类信息) 的搜索; (4) 更注意对检索结果的处理, 如纯净搜索引擎和元搜索引擎。
朋友, 在你掌握了搜索引擎及使用技巧后,在熟悉一下搜索引擎的搜索特点,你会发现互联网远比想像中的精彩, 而你竟能自由自在地畅游在这片广阔的海洋之上。