返回极智社区

统计分析:Lasso回归


发表用户:Hexuan     发表时间:3 年前

<div><div></div><section><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;变量筛选的方法不仅有建模前的基线分析等方法,还可以在建模的同时进行,如逻辑回归中用到的逐步回归等方法,<font color="#f9963b">现在我们介绍一种可以避免过拟合的方法:LASSO。</font></p></section><section></section><section><p><br/></p></section><section><section><p><b><font color="#46acc8">01&nbsp;LASSO</font></b></p></section></section><section><section><section><section><section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section></section></section></section></section></section><section><p>LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选(variable selection)和复杂度调整(regularization)。因此,不论因变量是连续的(continuous),还是二元或者多元离散的(discrete),都可以用 LASSO 回归建模然后预测。<font color="#f9963b">算法中的复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(overfitting)。</font><br/></p><p><strong>对于线性模型来说,</strong>复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(validation),通常效果很差。一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。</p><p>LASSO 回归复杂度调整的程度由参数&nbsp;λ&nbsp;来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少,而且比较有代表性的变量组合。</p><p><br/></p></section><section><section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section></section></section><section><p><br/></p></section><section><section><section><section><section><p><b><font color="#46acc8">02&nbsp;方法优势</font></b></p></section></section><section><section><section><section><section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section></section></section></section></section></section><section><p>LASSO可以有效的避免过拟合,什么是过拟合,让我们看看下图,从左往右依次是欠拟合,拟合效果良好和过拟合。建模的过程就是模型对数据的普遍规律的总结,例如在线性模型中,输入自变量的数值,通过线性公式的转换,让最终得到的因变量的值和实际的因变量的值相差尽量小,这就是模型的拟合过程。欠拟合情况下,模型没有正确认识到数据体现的普遍规律,无法对作出良好的预测。</p><p><strong>过拟合情况下,</strong>模型将数据中的全部信息都当做普遍规律,在训练集样本可以达到完美的效果,但用于样本外的测试情况就不行了,因为它可能将一些片面的、只体现于小部分样本的规律误认为是复合总体样本的普遍规律了,这种的模型最终效果也是不好的,我们要避免这两种情况,</p><p><strong>一般来说,</strong>欠拟合可以用复杂的算法来避免,但随着模型复杂度增大,其学习率也增强,很容易出现过拟合现象。LASSO回归加入了正则项,对不蕴含有用信息的特征进行减小权重的操作,从而达到减小过拟合的目的。</p><p><br/></p><p><br/></p></section><section><section></section></section><section><section><img src="https://files.xsmartanalysis.com/article/images/77b83f7e7f3b11ecbdf400163e132610.jpg" style="max-width:100%;" contenteditable="false"/></section></section><section><section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section></section></section><section><p><br/></p></section></section><p><strong><br/></strong></p><p><strong><br/></strong></p><p><b><font color="#46acc8">03&nbsp;平台实操</font></b></p></section></section><section><section><section><section><section><section><section><section><section></section></section></section></section><section><section><section><section></section></section></section></section></section></section></section></section></section><section><p>点击<font color="#f9963b">高级分析&lt;-Lasso回归</font>,针对要研究的数据,选入因变量和所有自变量,根据研究目标二分类选择binom(连续型因变量选择gaussian)。<br/></p></section><section><section></section></section><section><p><br/></p><p><img src="https://files.xsmartanalysis.com/article/images/8efccf387f3b11ecbdf400163e132610.jpg" style="max-width:100%;" contenteditable="false"/></p><p><br/></p></section><section><p>具体图片结果:</p><p><br/></p><p><img src="https://files.xsmartanalysis.com/article/images/98acd3e87f3b11ecace500163e132610.jpg" style="max-width:100%;" contenteditable="false"/></p><p><br/></p></section><section><section></section></section><section><p>可以看到,右图的垂直虚线对应的最低点的惩罚值(即曲线最低点对应的上坐标),在左图的相应惩罚值的位置寻找对应位置的垂线,相交的点数即为最终模型纳入的变量数目,对应交点的纵坐标即为该变量的回归系数。</p><p><font color="#f9963b">结果描述中给出了两种惩罚情况下的最佳变量组合。</font></p><br/></section></div>
    
  评论区

添加新评论


请先
登录
后发表评论(・ω・)
发布于   回复

发布于 
 回复
User profile pic User profile pic User profile pic
请先
登录
后发表评论(・ω・)
发表 评论