24小时服务热线 400-080-3010

您当前的位置:思亿欧首页 > 网站帮助

全文搜索

发布时间:2009-09-02    TAG: 搜索引擎

有专家认为,无论对文献标引的质量如何,对用户检索的满足率都不可能百分之百。例如,用户想检索关于陈毅在抗日战争中活动的文献,采用对标引词(主题词、关键词)字段的检索就很难满足检索要求,只有全文检索才能满足这一检索目的。因此,无论对文献的标引和分类如何,全文检索的功能都是不可替代的。然而,由于全文检索是直接对“原文”的检索,检索时会产生误检,大量的检索垃圾降低了全文检索的查准率,同时由于作者用词的不统一,同义词繁多,全文检索的查全率也受到影响。所以,解决这些问题是刻不容缓的。

1.提高查全率

作者用词的不统一,影响了用户的查全。例如,查找“非典型肺炎”,由于不同的文献使用的词汇不同,如“非典型肺炎”、“SARS”、“非典”等,只用某一词查找就可能出现漏检,如果让用户去列举出所有同义词来检索,势必增加了用户的检索负担。因此,构造全文检索算法时应考虑到检索词的扩充,采用同义词词典无疑是一个好的方法。

同义词词典是把含义相同的词汇关联起来,在全文检索中的作用是,当用户使用某个词汇检索时,系统直接将同义词取出,构成“或”运算检索式,在全文中匹配查询,这样确保了具有高查全率的检索效果。对于同义词词典,应能够及时更新,或具有学习功能,为维护同义词词典提供帮助。

2.提高查准率

由于中文词之间没有间隔标记,所以进行全文检索时极易产生误检索,使查准率偏低。例如,用“华人”一词去检索,会使得含有“中华人民共和国”词汇的文献被检索出来;用“民法’’检索,会把“人民法院”检索出来。解决这类问题同样可通过构造检索辅助词典来完成,而实现这一任务的词典,称为“排除词词典”。

排除词词典的结构为,将检索用词(如民法)与欲排除词(如人民法院、移民法等)关联起来,用于在检索时消除误检。用排除词词典排除误检的做法有许多,最简单的方法是将检索词在每一文献中检索出数量(检索词在文献中出现次数)与所有欲排除词在文献中出现的数量相比较,若相等,该文献就被排除,否则为命中。