全文检索技术和传统数据库的不同
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。
对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。
全文检索,简而言之,就是以各类数据诸如文字、声音、图象等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段。它能提供快捷的数据管理工具和强大的数据查询手段,通过快捷的数据管理工具,能快速帮助人们进行大量文档资料的整理和管理工作,强大的数据查询手段,使人们能快速方便地查到他们想要的任何信息。
全文检索的显著特点就是提供对海量数据的管理和快速查询。然而在全文检索技术的背后,却隐藏着更理想的知识管理应用之实现。
全文检索技术是用来弥补传统数据库字段检索的不足,它采用特别的索引技术,将欲查询的文件资料及资料源,经过索引产生器的浏览而建立成所谓的索引数据库。当我们在进行查询时,系统透过使用者输入的关键词,迅速的从索引数据库中找到我们要的资料,并且条列式的显示出来让我们点选。除此之外,系统搭配许多方便使用者的特性,使我们可以更精确、更快的找到合适的资料。
完整的全文检索系统还需要能够扮演信息整合的特性。由于企业中的信息可能散布于许多的地方,如:自己的网站内、分公司的网站内、一般使用者的硬盘中、档案服务器上、光盘柜中、数据库…往往要找寻一个资料必须很明确的知道资料位于何处,而透过全文检索系统,可以将这些信息整合在一起,只需进行一次的查询,就可以马上找到分散于四处所需的资料。所以在应用上将会比传统的数据库检索要大上许多。
应用管理
----对于政府网站而言,电子政务及办公信息化是发展的基础。全文检索系统能够顺利解决政府网站开发、组织和利用信息资源,为领导决策和社会相关机构、人士提供信息服务的功能。可以说中文全文检索系统在政府上网的大势中发挥着重要的作用。
----在数字图书馆领域,全文检索系统带来了一场革命性的变化。数字图书馆的建成,将从根本上改变现有图书馆的工作方式和服务模式,全面实现自动化、网络化、信息化。中国数字图书馆是采用高新技术支持的数字信息资源系统,代表着未来图书馆的发展模式。数字图书馆信息服务系统的一个重要技术要求就是支持SGML/XML的检索引擎,尤其是中文检索引擎。目前中文全文检索系统已经全面渗透到数字图书馆的建设中。
----搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。
----除此之外,全文检索对于一个电子商务站点也是非常重要的。在电子商务系统中,数据全部在具有严格安全控制的数据库中,信息检索不是静态网页,而是动态生成网页,对电子商务站点的系统资源开销是很大的。大量并发用户突发访问情况下的可靠性
是电子商务对全文检索系统的基本要求。
|