本文将从概念、数学推导与动手实现三个方面,极简地呈现线性回归模型的核心知识。
线性回归是一种监督学习算法,用于估计因变量 $y$与一个或多个自变量 $x$ 之间的线性关系。
简单线性回归仅含一个自变量,模型形式为
$$ y = \beta_0 + \beta_1 x + \varepsilon, $$
其中 $\beta_0$为截距,$\beta_1$ 为斜率,$\varepsilon$ 为误差项。
多元线性回归则推广到多自变量,记作
$$ \mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\varepsilon, $$
其中 $\mathbf{X}$ 是设计矩阵,$\boldsymbol\beta$是待估参数向量。
常见应用:预测房价、销售额或生物测量值等,既可用于预测,也可用于解释自变量对响应变量变化的贡献。