编号
zgly0000791513
文献类型
期刊论文
文献题名
基于改进DSE算法的web信息抽取
作者单位
北京林业大学信息学院
母体文献
数字技术与应用
年卷期
2012(3)
页码
171-173
年份
2012
分类号
TP391
关键词
信息抽取
模板
DSE
RoadRunner
文档对象模型
文摘内容
随着我国信息化进程的推进,人们开始认识到互联网作为信息来源的重要性,如何更有效地从网络的海量信息中抽取所需要的内容并进行合理的组织和利用已经成为亟待解决的问题。本文通过对DSE算法和RoadRunner系统中的算法的探讨和改进,提出了一种新的自动生成模板的信息抽取方法,并且在确定同模板网页url的阈值时引入了生物信息学中的FDR方法,为阈值的确定提出了理论根据。实验结果表明,经过改进的抽取方法对抽取结果的准确率有着明显的改善作用。