|
来网搜索引擎技术及全文检索技术
一般的数据库搜索和搜索引擎有什么不同?
现在互联网发生了很大变化,企业应用已经很普及了,以前只应用于YAHOO这样门户网站的专业搜索引擎技术也逐渐深入到企业的应用中来。来网的搜索引擎技术并不是用来再建一个YAHOO这样的门户网站,确切地说不是一种单一的产品而是一种技术,这种技术可应用到互联网的每一方面。
目前比较典型的应用有如下方面:
- 政府和企业内部信息检索:很多企业现在发现原来的数据库检索系统已经不能适应信息爆增的情况了,不但文件格式越来越多(Word,HTM,Acrobat
PDF,JSP,WPS,Excel等),随着事务越来越复杂,权利越来越下放,各部门都会有自己的信息存储方式和存储地点,而且经常变化,要搜索的范围除了内部局域网还有通过互联网连接的异地分支机构网络,这种情况可以由我们的专业搜索技术来解决。
- 网站内容比较搜索服务:比较竞争对手的价格,并定期或实时追踪这些数据的变化情况。
- 收集商业情报:收集竞争对手的公开会员信息,其它公开的商业情报,比如竞争对手的广告投放情况等,监视竞争对手的所有公开动态情报。
- 采集商业数据:收集具有合法版权的商业数据。
- 复杂目录管理:帮助企业的数据库工程师编制复杂的产品目录。比如化工产品光种类就170多万种,这些目录之间还有错综复杂的关系,光录入这些数据就是一个很头痛的问题。当企业本身也没有足够的原始资料而需要到互联网上获取资料的时候,我们的搜索引擎就帮助企业很轻松很快速地完成任务,这一点对电子商务网站也十分有用。
- 专业搜索网站:大而全的网站比如YAHOO总是出现一大堆的查询结果,现在人们更关心专业性、准确率、地域性等,人们需要专业的医学搜索引擎、化工搜索引擎、体育搜索引擎、汽车搜索引擎等。
- 多媒体搜索服务:针对图象、声音等特殊搜索。
- 互联网网站监控:主要是政府、公安、新闻出版和安全部门等对互联网网站的监控。
- 网站内部信息搜索:对于那些租用虚拟主机,不想花费购买服务器和聘请专业技术人员费用的中小企业和政府机构来说,仍然可以得到我们利用新技术提供的搜索服务,完全突破了传统方法。
搜索引擎是相当专业的技术,通常是指基于互联网的搜索,一般网站所具备的功能只是自己网站内的关键字搜索,只能搜索网站内已有的内容和访问者在网站上登记过的信息,是"搜索"而不是"搜索引擎"。即使像雅虎、新浪、网易、搜狐这样的国内外知名门户网站,也使用专业搜索引擎公司提供的技术,连部分的数据库都是使用外包的服务,可见搜索引擎技术的复杂性。
搜索引擎比传统的信息检索更为复杂,表现在:信息是分布在Web空间的,要求系统的适应性很强,对平台、网络等各种复杂环境的适应能力强;信息是不稳定的,动态性很强,因此要求系统的动态索引技术具有超级性能;信息是海量的,要求查询引擎具有先进的查询算法,并且对相关排序的要求很高;大量冗余和垃圾信息,要求系统具有一定的信息过滤能力;网络上的信息是多媒体的,编码不同,语言不同。以下是搜索引擎的一些常见技术问题:
- "蜘蛛"(Spider)系统:也称为"机器人"(Robot),能自动从互联网上收集网页的数据并充实到本地数据库中,定期检查网页是否更新或链接是否失效,同时需要比较哪些是重复信息,互联网上互相转载的内容相当多,重复信息也很多,识别它们需要经过很多处理,另外变化无穷的动态网页还会对"蜘蛛"运行产生影响等等。而传统的数据搜索只是搜索自身数据库的内容,或者用户登记到数据库的信息,信息量太少。
- 搜索结果排列(检索模型):长久以来,如何将搜索结果按照相关性进行排序一直是困扰搜索引擎技术的一大难题,除了要分析网页的链接数以外,还要判断这些链接的质量,还要分析网站的结构,分析客户的点击行为,以及要识别大量的针对搜索引擎的"作弊"行为。现在还出现了用对等搜索理念进行搜索的新方法,要采用先进的数学理论模型,各搜索引擎公司也高度保密自己的相当复杂的算法。
- 海量数据处理:互联网上的网页已经有几百亿,每天增长的速度是相当惊人的,而且这些网页不停地更新内容、变换地址。
- 时间:传统的信息检索只要判断信息创建时间即可,然而要去搜集别人的服务器信息的话,并不是每台互联网服务器都会提供时间的,由于网页本身每天都在更新,时间标准也难以确定。
检索速度:当查询一个关键词的时候各大搜索引擎都差不多,但为了得到精确的检索结果通常会用两个以上关键词并附加逻辑条件的组合,这种情况下搜索引擎的速度得到了考验,由于采用的算法不同就会产生很大的差异。
- Internet中文搜索引擎还要面对简繁体不同内码的问题,中西文不同的分词方法,以及中文混合搜索的复杂问题。
资料转载
6大英文搜索引擎
|