机器学习之随机森林

2015-08-01 约 42 字预计阅读 1 分钟

机器学习算法选择：随机森林

根据维基百科朴素贝叶斯分类器的说明，“2006年有一篇文章详细比较了各种分类方法，发现更新的方法（如提升树和随机森林）的性能超过了贝叶斯分类器”。综合网络中对两者的评价，我们选择随机森林作为机器学习算法。

使用jieba中文分词库将原始文本内容切分为一组有意义的分词。

将多维特征数据转换为二进制表示形式，例如：

说明：热独编码是将类别型特征转换为数值型特征的常用方法，适用于机器学习算法输入要求。

以下为RandomForestClassifier核心参数说明：

参数名称	默认值	说明
`criterion`	gini	纯度计算方式（gini或entropy），详见参考资料（1）
`max_features`	auto	最大特征数，减小m会降低树的相关性和分类能力；增大m会提高两者。详见参考资料（2）
`max_depth`	None	决策树最大深度，大数据量场景下Spark项目组建议设为4（参考：Spark源码）

实践参考：《算法实践-随机森林》

提示：随机森林在处理高维数据和非线性关系时表现出色，同时能有效处理缺失值，是Web安全分类任务的理想选择。