机器学习--集成学习

机器学习–集成学习

boosting:

  • 提高精确度 减少偏差 串行
  • 所有数据都参加,权重不同
  • bagging:

  • 减少方差 并行
  • 每次自助法随机抽取,权重相同
  • 在容易受到样本扰动的学习器(如不剪枝的决策树、神经网络)中效果更明显


  • bagging与随机森林

    upload

    boosting的扩展:adaboost, GDBT, XGBoost

    adaboost :

    前一个弱分类器输出的误差最大的样本在下一个个分类器中的权重会被加强。集成的时候误差小的分类器比重大。

    upload

    公式推导https://www.jianshu.com/p/0d850d85dcbd

    过程与实例 http://www.360doc.com/content/14/1109/12/20290918_423780183.html

    GBDT:

    每一轮训练时所关注的重点是本轮产生结果的残差,下一轮以本轮残差作为输入,尽量去拟合这个残差,使下一轮输出的残差不断变小。(不断提高精度)

    GBDT算法只利用了一阶的导数信息,可以做到每一轮一定向损失函数减小的梯度方向变化。模型的训练过程是对一任意可导目标函数的优化过程。

    GBDT无论用于分类还是回归一直都是使用的CART 回归树。对于分类问题每一个类别建立一颗子树。

    upload



    xgboost:

    xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。

    使用泰勒展开取得二阶倒数 可以在不选定损失函数具体形式的情况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了XGBoost的适用性。

    upload
    upload

    参考文献 https://www.cnblogs.com/jiangxinyang/p/9248154.html
    upload