/* styles.css */

随机森林 – Random Forest

文章目录

一文看懂随机森林

随机森林是一种由决策树构成的集成算法,在很多情况下都能有不错的表现。本文将介绍随机森林的基本概念、4 个构造步骤、4 种实现方法的对比评测、10 个优缺点和 4 个应用方向。

什么是随机森林?

随机森林属于集成学习中的 Bagging(Bootstrap AGgregation 的简称)方法。如果用图来表示它们之间的关系,则随机森林属于集成学习中的 Bagging 方法。

决策树 – Decision Tree
决策树是一种简单、解释性强且符合直观思维的算法,是基于 if-then-else 规则的有监督学习算法,上述图片可以直观地表达决策树的逻辑。

随机森林(Random Forest | RF)
由多个决策树构成,不同决策树之间彼此独立。当新的样本进入时,每棵决策树分别判断分类,最终以多数投票的结果作为随机森林的输出。

构造随机森林的 4 个步骤

构造随机森林主要包括以下 4 个步骤:

随机森林的优缺点

优点:

缺点:

随机森林 4 种实现方法对比测试

随机森林既可用于分类,也可用于回归。本文对 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四个平台的随机森林实现进行对比, 评价指标包括内存占用、运行速度和分类准确性。

测试结果如下:

【随机森林 4 种实现方法对比测试示意图】

随机森林的 4 个应用方向

随机森林可以应用于:

百度百科+维基百科

更多详情请参考百度百科和维基百科相关条目。

扩展阅读

详细了解随机森林,请参考文章《一文看懂随机森林》。

发表评论