简单线性回归分析
前言
最近在准备实验设计与数据分析的考试,发现对于相关的数学原理有很多不太明了的地方。特此突击复习!!!!!
简单线性回归分析
定义
在科学研究或工程中,我们往往希望通过实验获得的实验数据去推导出实验因素之间的某种关系或规律,在数学上的体现常常表现为由数据点推导出一个连续的函数,在函数图像上函数对应的点尽可能的贴近所得的到的数据点。
回归分析常用于分析无计划的实验所得的数据,如,观测不可控制的现象所得的数据或历史记录。一般的,设有一个因变量或响应y,它依赖于k个自变量或回归变量,$x_1,x_2,x_3,…,x_k $。这些变量之间的关系可以用一个叫做回归方程的数学模型来描述。在实验的大多数情况下,实验者并不清楚变量之间的真实函数关系,因此常选择一个近似的函数来拟合逼近真实的函数,其中多项式模型是广为引用的近似函数。
线性是指两个数据项之间的特殊关系,简单来讲就是等比关系,因此这两个数据关系的函数图像是一条直线。线性回归使用最小二乘法来估计回归系数,通过最小化残差平方和来求解。仅关于一个自变量x与一个因变量y的线性回归分析我们常称为简单线性分析。
我们想要确定一个响应变量y与一个回归变量x之间的关系,常假定x为连续变量,随后选取x的值进行实验并观察y的值。
设x与y的函数图像是一条直线,在x的每个水平处观察值y是一个随机变量。现在,对x的每一值y的期望值为
$E(y|x) = \beta_1+\beta_2x$
其中直线的参数$\beta_1$与$\beta_2$是未知的常数。我们假定每个观测值都可以用模型
$y=\beta_1+\beta_2x+\epsilon$
来描述,其中$\epsilon$是随机误差,其均值为0,方差为$\sigma^2$。还假定$\{\epsilon\}$是不相关的随机变量。这样的回归模型,我们成为简单线性回归模型。
假设我们通过实验获取了n组数据,$(y_1,x_1),(y_2,x_2)…,(y_n,x_n)$,得到模型
$y_j=\beta_1+\beta_2x_j+\epsilon_j,(j=1,2,3,4,…,n)$
我们可以用最小二乘法来估计参数$\beta_1与\beta_2$的值。
最小二乘法(Least Square Method)求解回归方程
最小二乘法最早由法国数学家阿德里安-马里·勒让德在1801年提出。后由德国数学家卡尔·弗里德里希·高斯进一步发展了这一方法,并在天文学中应用。
最小二乘法旨在找到一组参数,使得模型预测值与实际观测值之间的差异(残差)的平方和最小。或者反过来说,找到一个合适的模型来使得残差得平方和最小。
让我们以简单线性回归举例,当我们通过实验获得了n组$(x_i,y_i)$的实验数据,x与y的关系可以用模型$y_i = \beta_0+\beta_1x_i + \epsilon_i(\beta_0,\beta_1为常数,\epsilon为随机误差)$表示。
此时我们想要通过一个标准来评价总体的误差情况,因为误差$\epsilon$可正可负,采用总误差$\sum_{i=1}^n\epsilon_i=0$可能出现误差绝对值特别大的情况,因此我们考虑采用$\sum_{i=1}^n\epsilon^2$来评价总体的误差情况。当$\sum_{i=1}^n\epsilon^2$最小时,我们认为此时最接近正确的函数关系。由此我们可以求解$\beta_0与\beta_1$:
$\epsilon_i = y_i - \beta_0-\beta_1x_i$
$ MIN(\sum_{i=1}^n\epsilon^2)=MIN[\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2]=MIN(F(\beta_0,\beta_1))$
上式右侧分别对$\beta_0$与$\beta_1$求偏导
$\frac{\partial F}{\partial\beta_0}=\sum_{i=1}^n-2(y_i-\beta_0-\beta_1x_i)=0$
$\frac{\partial F}{\partial\beta_1}=\sum_{i=1}^n-2x_i(y_i-\beta_0-\beta_1x_i)=0$
变形可得方程组
$y=
\begin{cases}
\beta_0=\bar{y}-\beta_1\bar{x}\\
\beta_1=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})}
\end{cases}
$
由此可解出线性回归方程 $ y=\beta_0+\beta_1x$