在简述有限元系列中用到过最小二乘法
, 矩阵的四个基本空间可以帮助我们更好的理解最小二乘法
.
理解线性方程组
本文在实数域 $\mathbb{R}$ 内考虑(复数域 $\mathbb{C}$ 内是类似的). 假设存在 $m\times n$ 阶实矩阵 $\boldsymbol{A}$, 以及 ${\rm b}\in \mathbb{R}^m$. 则线性方程组 $\boldsymbol{A}{\rm x}={\rm b}$ 有解可以有一下两种解释:
- ${\rm b}$ 可表示为 $\boldsymbol{A}$ 的列向量的线性组合
$$ \begin{aligned} {\rm b} &= x_1\alpha_1+\cdots+x_n\alpha_n \\ &= \begin{bmatrix} \alpha_1,\cdots,\alpha_n \end{bmatrix} \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} \\ &= \boldsymbol{A}{\rm x} \end{aligned} $$
- ${\rm b}$ 属于线性变换 $\boldsymbol{A}$ 的值域(range), $${\rm b} \in C(\boldsymbol{A})$$ 其中, 列空间 $C(\boldsymbol{A})=\{ \boldsymbol{A}{\rm x}|{\rm x} \in \mathbb{R}^n \}$, ${\rm b}=\boldsymbol{A}{\rm x}$ 称为 ${\rm x}$ 经线性变换 $\boldsymbol{A}$ 的像(image).
当线性方程组 $\boldsymbol{A}{\rm x}={\rm b}$ 无解时, 我们希望找到最佳近似解 $\check{\rm x}$, 使得 ${\rm e}={\rm b} - \boldsymbol{A}\check{\rm x}$ 长度的平方最小
$$ \min_\check{\rm x} \lVert {\rm b} - \boldsymbol{A}\check{\rm x} \rVert^2 $$
以三维情形为例, 误差向量 ${\rm e}$ 与 $\boldsymbol{A}$ 的列空间 $C(\boldsymbol{A})$ 正交时, $\rm e$ 的长度的平方最小
为计算方便, 我们首先介绍 正交投影矩阵
正交投影矩阵
对于任意 ${\rm x} \in , \mathbb{R}^n$, 右乘 $n$ 阶方阵 $\boldsymbol{P}$, 使得 $\boldsymbol{P}{\rm x} \in, C(\boldsymbol{P})$, 满足 $\boldsymbol{P}^2=\boldsymbol{P}$, 则 $\boldsymbol{P}$ 称为
幂等矩阵
或投影矩阵
.
$$ \boldsymbol{P}(\boldsymbol{P}{\rm x}) = \boldsymbol{P}^2({\rm x}) = \boldsymbol{P}{\rm x} $$
投影「投影向量」得到的还是原来的「投影向量」.
正交投影矩阵
$\boldsymbol{P}$ 是不仅是幂等矩阵
, 还是对称矩阵
, 即 $$ \boldsymbol{P} = \boldsymbol{P}^{\mathsf T} $$
证:如上图所示, 对任意 ${\rm x,y}\in, \mathbb{R}^n$, 残差向量 ${\rm e}={\rm x} - \boldsymbol{P}{\rm x}$ 与 $C(\boldsymbol{P})$ 正交, 即
$$ \begin{aligned} 0&=({\rm x}-\boldsymbol{P}{\rm x})^{\mathsf T}(\boldsymbol{P}{\rm y}) \\[3pt] &= [(\boldsymbol{I}-\boldsymbol{P}){\rm x}]^{\mathsf T}(\boldsymbol{P}{\rm y}) \\[3pt] & = {\rm x}^{\mathsf T}(\boldsymbol{I}-\boldsymbol{P})^{\mathsf T}(\boldsymbol{P}{\rm y}) \\[3pt] & = {\rm x}^{\mathsf T}(\boldsymbol{P}-\boldsymbol{P}^{\mathsf T}\boldsymbol{P}){\rm y} \end{aligned} $$
所以 $\boldsymbol{P}=\boldsymbol{P}^{\mathsf T}\boldsymbol{P}$, 因为 $\boldsymbol{P}^{\mathsf T}\boldsymbol{P}$ 对称, 所以 $\boldsymbol{P}$ 也是对称阵.
最小二乘解
向量 ${\rm b}$ 右乘正交投影矩阵 $\boldsymbol{P}$ 使得 ${\rm p} = \boldsymbol{P}{\rm b}\in C(\boldsymbol{A})$. $\boldsymbol{P}$ 满足
$$ \begin{cases} \boldsymbol{P}^2 = \boldsymbol{P} \\[3pt] \boldsymbol{P} = \boldsymbol{P}^{\mathsf T} \end{cases} $$
寻找 $\check{\rm x}\in \mathbb{R}^n$, 右乘矩阵 $\boldsymbol{A}$, 使得 ${\rm p} = \boldsymbol{A}\check{\rm x}\in C(\boldsymbol{A})$
综合一下,
$$ \boldsymbol{P}({\rm b}-{\rm p})={\rm p} - {\rm p} = 0 $$
因此, $({\rm b}-{\rm p})\in N(\boldsymbol{P})$.
$\boldsymbol{P}$ 和 $\boldsymbol{A}$ 的基本子空间满足:
- $C(\boldsymbol{P})=C(\boldsymbol{A})$
- $N(\boldsymbol{P})=N(\boldsymbol{A}^{\mathsf T})$
证:
- 证 $C(\boldsymbol{A})\subseteq C(\boldsymbol{P})$
假设 ${\rm x}\in C(\boldsymbol{A})$, 则 $\boldsymbol{P}{\rm x} = {\rm x}$, 所以 ${\rm x}\in C(\boldsymbol{P})$ - 证 $C(\boldsymbol{P})\subseteq C(\boldsymbol{A})$
假设 ${\rm x}\in C(\boldsymbol{P})$, 则必存在 ${\rm y}$, 使得 ${\rm x}=\boldsymbol{P}{\rm y}$, 根据 $\boldsymbol{P}$ 的定义, ${\rm x}\in C(\boldsymbol{A})$
所以 $C(\boldsymbol{P})=C(\boldsymbol{A})$.
- 根据秩-零化度定理, 成立 $$ \begin{cases} N(\boldsymbol{P})=C(\boldsymbol{P}^{\mathsf T})^{\bot} \\[3pt] N(\boldsymbol{A}^{\mathsf T})=C(\boldsymbol{A})^{\bot} \end{cases} $$ 结合 $$ \begin{cases} \boldsymbol{P}=\boldsymbol{P}^{\mathsf T} \\[3pt] C(\boldsymbol{P})=C(\boldsymbol{A}) \end{cases} $$ 得到 $$ \begin{aligned} N(\boldsymbol{P})&=C(\boldsymbol{P}^{\mathsf T})^{\bot} \\&= C(\boldsymbol{P})^{\bot} = C(\boldsymbol{A})^{\bot} \\&= N(\boldsymbol{A}^{\mathsf T}) \end{aligned} $$
因此, $({\rm b}-{\rm p})\in N(\boldsymbol{A}^{\mathsf T})=N(\boldsymbol{P})$, 即
$$ \boldsymbol{A}^{\mathsf T}({\rm b}-{\rm p}) = \boldsymbol{A}^{\mathsf T}({\rm b}-\boldsymbol{A}\check{\rm x}) = 0 $$
整理一下
$$ \boldsymbol{A}^{\mathsf T}\boldsymbol{A}\check{\rm x} = \boldsymbol{A}^{\mathsf T}{\rm b} $$
上述方程的解 $\check{\rm x}$ 称为 $\boldsymbol{A}{\rm x} = {\rm b}$ 的最小二乘解
.
列满秩
若矩阵 $\boldsymbol{A}$ 列满秩序($\rm{rank}\, \boldsymbol{A} = n$), 则 $\boldsymbol{A}^{\mathsf T}\boldsymbol{A}$ 为非奇异方阵(可逆), 因为
$$ \rm{rank}\, \boldsymbol{A} = \rm{rank}\, \boldsymbol{A}^{\mathsf T}\boldsymbol{A} $$
此时, 有唯一最小二乘解
$$ \check{\rm x} = (\boldsymbol{A}^{\mathsf T}\boldsymbol{A})^{-1}\boldsymbol{A}^{\mathsf T}{\rm b} $$
最小平方误差投影向量
$$ {\rm p} = \boldsymbol{A}\check{\rm x} = \boldsymbol{A}(\boldsymbol{A}^{\mathsf T}\boldsymbol{A})^{-1}\boldsymbol{A}^{\mathsf T}{\rm b} $$
正交投影矩阵
$$ \boldsymbol{P} = \boldsymbol{A}(\boldsymbol{A}^{\mathsf T}\boldsymbol{A})^{-1}\boldsymbol{A}^{\mathsf T} $$
正交投影 $\boldsymbol{I}-\boldsymbol{P}$
$\boldsymbol{I}-\boldsymbol{P}$ 同样是一个正交投影矩阵, 因为
$$ \begin{aligned} (\boldsymbol{I}-\boldsymbol{P})^2 &= \boldsymbol{I} - 2\boldsymbol{P} + \boldsymbol{P}^2 \\[3pt] &= \boldsymbol{I} -2\boldsymbol{P} + \boldsymbol{P} \\[3pt] &= \boldsymbol{I} - \boldsymbol{P} \end{aligned} $$
并且有
$$ (\boldsymbol{I}-\boldsymbol{P}){\rm b} = {\rm b} - \boldsymbol{P}{\rm b} = {\rm b} - {\rm p} = {\rm e} $$
说明向量 ${\rm b}$ 经 $\boldsymbol{I}-\boldsymbol{P}$ 映射到 $e \in N(\boldsymbol{A}^{\mathsf T})$.
小结
由向量 ${\rm b }\in \mathbb{R}^m - C(\boldsymbol{A})$ 出发, 4个线性变换可总结至下图.
注: 当今仅当 $\boldsymbol{A}$ 列满秩时, $\boldsymbol{A}^{\mathsf T}\boldsymbol{A}$ 可逆.