ISLR Note

August 28, 2019

对回归或者分类问题使用灵活度高的方法的优缺点

灵活度高的方法可解释性低,但是对数据的拟合更好,但过多的参数也会带来过拟合的问题,所以对于比较简单的模型可能效果还不如灵活度低的方法。

可解释性

对于线性模型,它非常可解释,因为很容易理解 YYX1X2,...,XpX_1,X_2,...,X_p 之间的关系。

Y=i=1pθiXiY = \sum_{i=1}^p \theta_i X_i

但是对于灵活度高的方法,就很难理解每个独立的 XiX_iYY 之间的关联。

推理和预测

对于推理,我们需要可解释性,所以一般来说,用灵活度低的方法会更好。

对于预测,虽然不关注于可解释性,但是灵活度高的方法会有过拟合的问题,所以需要根据模型复杂度来判断。

Parametric Methods and Non-parametric Methods

对于预测 Y=f(x1,x2,...,xp)Y = f(x_1,x_2,...,x_p)

Parametric Methods 就是对 f 假设一个模型,比如线性模型 Y=i=1pθiXiY = \sum_{i=1}^p \theta_i X_i,找到最优的系数 θ1,θ2,...,θp\theta_1,\theta_2,...,\theta_p 来使 f 预测的结果准确。这种方法降低了问题的复杂性,把预测未知函数 f 的问题转换成了求一系列系数的问题。但是假设的这个模型可能与真实情况相去甚远,可能他一个二次,三次函数,但是假设的是线性模型,所以预测的 f 的结果就会很差。

Non-parametric Methods 没有预设的函数。所以避免了 Parametric Methods 的缺点,但是复杂性更高。他会尽可能拟合训练的数据,准确度更高,但也更容易过拟合。