编号
zgly0000442961
文献类型
期刊论文
文献题名
基于随机森林的文本分类模型研究
作者单位
江西师范大学计算机信息工程学院
母体文献
山东大学学报: 理学版
年卷期
2006,41(3)
页码
5-9
年份
2006
分类号
TP18
关键词
文本分类
随机森林
决策树
泛化误差
文摘内容
随着WWW的迅猛发展, 文本分类成为处理和组织大量文档数据的关键技术。随机森林模型是决策树的集成, 并且由一随机向量决定决策树的构造。当森林中的决策树的数目增大, 随机森林的泛化误差将趋向一个上界。将随机森林模型应用于文本分类, 在Reuter21578数据集上的实验表明, 分类效果比较好, 性能比较稳定, 将共同C4.5, KNN, SM0, SVM4种典型的文本分类器进行了比较, 结果显示它的分类性能胜于CA.5, 同KNN, SMO和SVM方法相当。