前言

卧槽后天就要考概率论惹😫趁现在抄书复习一下 ~~ 还来得及嘛 ~~

基本名词

  • 样本空间:所有可能结果组成的集合
  • 样本点:样本空间中的元素
  • 样本:从总体中抽取的样本点组成的集合
  • 随机事件(事件):样本空间中的子集
  • 必然事件: 样本空间 $\Omega$
  • 不可能事件:空集 $\emptyset$
  • 相等事件:若 $A \subseteq B \wedge B \subseteq A$,则称 $A$ 与 $B$ 相等,记为 $A = B$
  • 互斥事件:若 $A \cap B = \emptyset$,则称 $A$ 与 $B$ 互斥(不相容)
  • 对立事件(逆事件): 若 $A \cup B = \Omega \wedge A \cap B = \emptyset$,则称 $A$ 与 $B$ 对立,记为 $A \oplus B$ 或 $\bar{A} = B$
  • 和事件:$A \cup B$ 或者 $A + B$
  • 积事件:$A \cap B$ 或者 $AB$
  • 差事件:$A - B ={x| x \in A \wedge x \notin B}$
  • 随机变量: 样本空间 $\Omega$ 到实数集 $R$ 的映射 $X: \Omega \rightarrow R$
  • 记忆性:若随机变量 $X$ 的取值与样本空间 $\Omega$ 中的样本点无关,则称 $X$ 具有记忆性,比如抛硬币

事件之间的基本运算

  • 交换律: $A \cup B = B \cup A$
  • 结合律: $A \cup (B \cup C) = (A \cup B) \cup C$
  • 分配律: $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$
  • 德摩根律: $\bar{A \cup B} = \bar{A} \cap \bar{B}$ , $\bar{A \cap B} = \bar{A} \cup \bar{B}$
  • $A \cap \Omega = A$ , $A \cap \emptyset = \emptyset$
  • $A \cup B = (A \cap \bar{B}) \cup (\bar{A} \cap B)$

事件的概率

概率是这样的一个映射,将事件A映射到 $[0, 1]$ 之间的一个实数,记为 $P(A)$,并满足以下条件:

  • 非负性:$P(A) \geq 0$
  • 规范性:$P(\Omega) = 1$
  • 可加性:若 $A_1, A_2, \cdots$ 是两两互斥的事件,则 $P(A_1 \cup A_2 \cup \cdots) = P(A_1) + P(A_2) + \cdots$

概率的性质:

  • $P(\emptyset) = 0$
  • $P(A) = 1 - P(\bar{A})$
  • $P(A)\le 1$
  • 对于有限样本空间 $P(A)=\frac{|A|}{|\Omega|}$
  • 有限可加性:若 $A_1, A_2, \cdots, A_n$ 是两两互斥的事件,则 $P(A_1 \cup A_2 \cup \cdots \cup A_n) = P(A_1) + P(A_2) + \cdots + P(A_n)$
  • 对于事件A、B满足 $A \subseteq B$,则
  • 加法公式:$P(A \cup B) = P(A) + P(B) - P(AB)$

容斥原理:

条件概率

设 $A, B$ 是两个事件,且 $P(B) > 0$,则称 $P(A|B) = \frac{P(AB)}{P(B)}$ 为在 $B$ 发生的条件下 $A$ 发生的概率

条件概率的性质

  • $P(A|B) \geq 0$
  • $P(\Omega|B) = 1$
  • $P(AB) = P(A|B)P(B)$
  • $P(A \cup B|B) = P(A|B) + P(B|B) - P(AB|B) = P(A|B) + P(B|B) - P(B|B) = P(A|B)$
  • $P(A \cap B|B) = P(A|B)P(B|B) = P(A|B)$
  • $P(\bar{A}|B) = 1 - P(A|B)$

全概率公式

设 $B_1, B_2, \cdots, B_n$ 是样本空间 $\Omega$ 的一个划分,且 $P(B_i) > 0$,则对于任意事件 $A$,有

贝叶斯公式

设 $B_1, B_2, \cdots, B_n$ 是样本空间 $\Omega$ 的一个划分,且 $P(B_i) > 0$,则对于任意事件 $A$,有

独立性

对于事件 $A_1 、 A_2 、 A_3 \cdots$ ,若对任意的 $i, j$,都有 $P(A_i A_j) = P(A_i)P(A_j)$,则称 $A_1 、 A_2 、 A_3 \cdots$ 独立

  • 如果事件A、B独立,则A、B事件肯定不是两两互斥
  • 若 $A1 、 A_2 、 A_3 \cdots$ 独立,则 $P(A_1 \cup A_2 \cup \cdots) = \sum{i=1}^{n} P(A_i)$

离散随机变量

设离散型随机变量 $X$ 的可能取值为 $x_1, x_2, \cdots, x_n$,则称 $P(X = x_i) = p_i$ 为 $X$ 的分布律,其中 $p_i$ 满足:

  • $p_i \geq 0$
  • $\sum_{i=1}^{n} p_i = 1$
  • $P(X \in A) = \sum_{x_i \in A} p_i$

并且将x-p列成表,称为分布律表

x $x_1$ $x_2$ $x_3$ $\cdots$ $x_n$
p $p_1$ $p_2$ $p_3$ $\cdots$ $p_n$

离散随机变量的数学期望

对于离散型随机变量 $X$ 的分布律为 $P(X = x_i) = p_i$,则称

为随机变量 $X$ 的数学期望,记为 $E(X)$

性质:

  • 无记忆性(常数性): $E(c) = c$
  • 线性性: $E(aX + b) = aE(X) + b$
  • 单调性:若 $X \leqslant Y$,则 $E(X) \leqslant E(Y)$
  • 如果离散随机变量X、Y相互独立,则 $E(XY) = E(X)E(Y)$
  • 如果离散随机变量X、Y中Y具有X的连续函数 $Y:=g(X)$,则,

离散随机变量的方差

对于离散型随机变量 $X$ 的分布律为 $P(X = x_i) = p_i$,则称

为随机变量 $X$ 的方差,记为 $D(X)$ 同时其算数平方根 $\sqrt{D(X)}$ 为随机变量 $X$ 的标准差,记为 $\sigma(X)$

性质:

  • $D(X) \geq 0$
  • $D(X) = 0$ 当且仅当 $X$ 是一个常数
  • 平移与伸缩: $D(aX+b)=a^2D(X)$
  • 若 $X$、$Y$ 相互独立,则 $D(X±Y) = D(X) ± D(Y)$
  • 切比雪夫不等式:对于任意的实数 $\varepsilon > 0$,有 $P(|X - E(X)| \geqslant \varepsilon) \leqslant \frac{D(X)}{\varepsilon^2}$

离散随机变量的常见分布

0-1分布

若随机变量 $X$ 只能取0、1两个值,且其分布律为:

则称 $X$ 服从参数为 $p$ 的0-1分布,记为 $X \sim B(1, p)$

该模型常用于单次随机试验中,试验结果只有两种可能,且每次试验相互独立,比如抛一次硬币

  • 数学期望: $E(X) = p$
  • 方差: $D(X) = p(1-p)$

二项分布 (Binomial Distribution)

设随机变量 $X$ 表示 $n$ 重伯努利试验中事件发生成功的次数,且每次试验成功的概率为 $p$。其分布律为:

则称 $X$ 服从参数为 $n, p$ 的二项分布,记为 $X \sim B(n, p)$该模型用于在相同条件下,相互独立的重复试验。
当 $n=1$ 时,二项分布退化为 0-1 分布。

  • 数学期望:$E(X) = np$
  • 方差:$D(X) = np(1-p)$

泊松分布 (Poisson Distribution)

若随机变量 $X$ 可能取值为 $0, 1, 2, \dots$,且其分布律为:

则称 $X$ 服从参数为 $\lambda$ 的泊松分布,记为 $X \sim P(\lambda)$ ,或者 $X \sim \pi(\lambda)$

该模型常用于描述单位时间内稀有事件发生的次数(如:放射性物质发射出的粒子数、一段时间内呼入的热线电话数)。

  • 数学期望:$E(X) = \lambda$
  • 方差:$D(X) = \lambda$

注意:当 $n$ 很大且 $p$ 很小时,二项分布可以用泊松分布近似,其中 $\lambda = np$。

几何分布 (Geometric Distribution)

在重复独立的伯努利试验中,设随机变量 $X$ 表示事件 $A$(概率为 $p$)第一次出现时试验的总次数。其分布律为:

则称 $X$ 服从参数为 $p$ 的几何分布,记为 $X \sim G(p)$

该模型具有无记忆性:即在已知前 $n$ 次试验未成功的前提下,第 $n+1$ 次试验成功的概率与第一次实验成功的概率相同。

  • 数学期望:$E(X) = \frac{1}{p}$
  • 方差:$D(X) = \frac{1-p}{p^2}$

超几何分布 (Hypergeometric Distribution)

设有 $N$ 件产品,其中次品有 $M$ 件。现从中不放回地随机抽取 $n$ 件,设 $X$ 为抽到的次品数。其分布律为:

则称 $X$ 服从参数为 $N, M, n$ 的超几何分布,记为 $X \sim H(N, M, n)$该模型与二项分布的区别在于它是不放回抽样(试验不独立)。

当总数 $N$ 很大时,超几何分布近似于二项分布。数学期望:$E(X) = n \cdot \frac{M}{N}$方差:$D(X) = n \cdot \frac{M}{N} \cdot (1 - \frac{M}{N}) \cdot \frac{N-n}{N-1}$

连续随机变量

随机变量的分布函数

设随机变量 $X$ ,对于任意实数 $x$,有:

则称 $F(x)$ 为随机变量 $X$ 的分布函数

  • $F(x)$ 是单调递增的
  • $0 \leqslant F(x) \leqslant 1$
  • $F(-\infty) = 0$,$F(+\infty) = 1$
  • $P(a < X \leqslant b) = F(b) - F(a)$

连续随机变量的概率密度函数

设随机变量 $X$ 的分布函数为 $F(x)$,若存在非负可积函数 $f(x)$,使得对于任意实数 $x$,有:

则称 $f(x)$ 为随机变量 $X$ 的概率密度函数,记为 $f(x)$

  • $f(x) \geqslant 0$
  • $\int_{-\infty}^{+\infty} f(x) dx = 1$
  • $P(a < X \leqslant b) = \int_{a}^{b} f(x) dx$
  • 若 $f(x)$ 在 $x_0$ 处连续,则 $F’(x_0) = f(x_0)$
  • $P(X = k) = 0$(连续随机变量取某个具体值的概率为0)

连续随机变量的数学期望

对于连续型随机变量 $X$ 的概率密度函数为 $f(x)$,则称

为随机变量 $X$ 的数学期望,记为 $E(X)$

性质:

  • 无记忆性(常数性): $E(c) = c$
  • 线性性: $E(aX + b) = aE(X) + b$
  • 若 $X \ , \ Y$ 是随机变量,而且 Y 具有 X的连续函数 $Y:=g(X)$ , 则:

连续随机变量的方差

对于连续型随机变量 $X$ 的概率密度函数为 $f(x)$,则称

同样地,也可以表示为:

  • $D(X) \geq 0$
  • $D(X) = 0$ 当且仅当 $X$ 是一个常数
  • 平移与伸缩: $D(aX+b)=a^2D(X)$
  • 若 $X$、$Y$ 相互独立,则 $D(X±Y) = D(X) ± D(Y)$
  • 切比雪夫不等式:对于任意的实数 $\varepsilon > 0$,有 $P(|X - E(X)| \geqslant \varepsilon) \leqslant \frac{D(X)}{\varepsilon^2}$

连续随机变量的常见分布

均匀分布 (Uniform Distribution)

若随机变量 $X$ 的概率密度函数为:

则称 $X$ 服从区间 $[a, b]$ 上的均匀分布,记为 $X \sim U(a, b)$

其分布函数为:

  • 数学期望:$E(X) = \frac{a+b}{2}$
  • 方差:$D(X) = \frac{(b-a)^2}{12}$

指数分布 (Exponential Distribution)

若随机变量 $X$ 的概率密度函数为:

则称 $X$ 服从参数为 $\lambda$ 的指数分布,记为 $X \sim E(\lambda)$

其分布函数为:

  • 其具有性质:

    • 对于任意 $s > 0$,有 $P(X > s + t | X > s) = P(X > t)$ , 即指数分布具有无记忆性
  • 数学期望:$E(X) = \frac{1}{\lambda}$

  • 方差:$D(X) = \frac{1}{\lambda^2}$

正态分布 (Normal Distribution)

若随机变量 $X$ 的概率密度函数为:

则称 $X$ 服从参数为 $\mu, \sigma$ 的正态分布(Gauss分布),记为 $X \sim N(\mu, \sigma^2)$ , 图像为钟形曲线,且关于平均值(期望 $\mu$ )对称

其分布函数为:

  • 若 $X \sim N(\mu, \sigma^2)$,则 $Y = \frac{X - \mu}{\sigma} \sim N(0, 1)$,即标准正态分布
  • 若 $X \sim N(\mu, \sigma^2)$,则 $E(X) = \mu$,$D(X) = \sigma^2$
  • 若 $X \sim N(\mu, \sigma^2)$ ,则 $aX + b \sim N(a\mu + b, a^2\sigma^2)$

标准正态分布 (Standard Normal Distribution)

标准正态分布是正态分布的一种特殊情况,其参数为 $\mu = 0$,$\sigma = 1$。

特别的,对于任意正态分布可以通过线性变换 $Z = \frac{X - \mu}{\sigma} \sim N(1,0)$ 来标准化。

概率密度函数为:

标准正态分布的分布函数为:

上分位数

对于标准正态分布,若 $P(X>z{\alpha}) = \alpha$,则称 $x$ 为标准正态分布的上 $\alpha$ 分位数,记 $\Phi^{-1}(\alpha):=z{\alpha}$。

下面给出一些常用的上分位数:

$\alpha$
0.05 1.645
0.025 1.96
0.01 2.326
0.005 2.576

正态分布是一个十分普遍的分布,如社会上的身高、体重,导体原件中的热噪声等,都服从正态分布。

随机变量的函数分布

在实际中,由于不能直接观测到随机变量,而却能很好地观测到随机变量的函数,因此研究随机变量的函数分布就显得尤为重要。

简单来说,随机变量的函数确实就是一个复合函数,它描述的是概率从一个取值空间转移到另一个取值空间的过程。

如果把随机变量 $X$ 看作第一层映射,把函数 $g(x)$ 看作第二层映射,那么 $Y = g(X)$ 就是一个复合映射:

  • 第一层 ($X$):将样本空间 $\Omega$ 中的每一个随机实验结果 $\omega$ 映射为一个实数 $x$。
  • 第二层 ($g$):将实数 $x$ 映射为另一个实数 $y$。复合结果 ($Y$):$Y(\omega) = g(X(\omega))$。

我们将随机变量X、Y的分布函数记做 $F_X(x)$,$F_Y(y)$ ,同时 $Y=g(X)$ , 概率密度函数同理。

离散型随机变量的关系

若 $X$ 的分布律为 $P(X=x_i) = p_i$,则 $Y = g(X)$ 的分布律为:

核心逻辑:找到所有映射到同一个 $y_j$ 的 $x_i$,将它们的概率求和。

连续型随机变量的关系

分布函数法

最通用的方法,适用于任何形式的 $g(x)$(单调或非单调)。

累积分布函数 $F_Y(y)$ 的关系:

概率密度函数 $f_Y(y)$ 的关系:通过对分布函数求导获得:

公式法

若 $g(x)$ 是严格单调的可导函数,且反函数为 $h(y) = g^{-1}(y)$,则密度函数有直接对应公式:

直观理解:$f_X(h(y))$ 完成了数值的映射,而 $|h’(y)|$ 完成了概率密度的拉伸或压缩(即微元的变换 $dx = |h’(y)|dy$)。

多维随机变量

对于一些随机现象,往往需要同时考虑多个随机变量的取值,因此引入了多维随机变量的概念。

在单维情况下,映射是 $\Omega \to \mathbb{R}^1$。而在多维(以二维为例)情况下,映射关系变为:

  • 第一层映射(联合映射):每一个随机试验的结果 $\omega$,不再只对应一个数字,而是同时触发了一组数字。
  • 分量映射:我们可以把这个向量值映射 $\mathbf{X} = (X, Y)$ 拆解为两个同步发生的标量映射 $X(\omega)$ 和 $Y(\omega)$。它们共享同一个源头 $\omega$,但投射到了不同的坐标轴上。

联合概率密度 (Joint PDF)

对于连续型,我们关注的是空间中某一点附近的概率密度:

几何意义:$f(x, y)$ 在平面上的积分值等于 $1$。

联合分布函数 (Joint CDF)

我们不再关心某个点,而是关心点落在左下方“无穷矩形区域”的概率:

这是多维随机变量最基本的刻画,它描述了概率在 $n$ 维空间中的累积情况。

  • 对于二维离散型变量,其联合分布函数为:
  • 对于二维连续型变量,其联合分布函数为:

其中概率密度 $f(x,y)$ 满足以下性质:

  • 非负性可积:$f(x,y) \geqslant 0$
  • 积分为1:

如果是求某个区域内的概率,则:

或者是满足某一个不等式的概率如 $Y\le X$ ,则:

其中 $G$ 是满足 $y\le x$ 的区域。

边缘分布 (Marginal Distribution)

边缘分布描述的是随机变量在某个维度上的分布情况,即忽略另一个维度。

  • 边缘分布函数:
  • 边缘概率密度:

当然对于离散型变量,也有类似的定义:

  • 边缘分布律:
  • 边缘概率质量函数:

边缘分布对于分段函数在不同限制区域内边缘分布会不同,在这里举个例子

对于这个的边缘分布函数为:

当然也有不规则区域的情况:

一样还是二重积分的区域变换内层,要计算 $f_X(x)$,我们需要找到 $\sigma_1$ 在给定 $x$ 时的所有可能 $y$ 值的集合。这个集合通常被称为区域 $\sigma_1$ 在 $x$ 处的垂直截面,记作 $\sigma_1(x)$。因此,边缘概率密度函数 $f_X(x)$ 可以表示为:

其中 $\sigma_2(x)$ 是区域 $\sigma_1(x)$ 的补集。

类似地,对于Y轴的边缘概率密度函数 $f_Y(y)$,我们需要找到该区域在 $y$ 处的垂直截面,并计算相应的概率密度。

类似的我们把这个边缘分布的边缘修改下,不是固定的X轴和Y轴,而是空间中某一个向量 $\vec{a}=(a_x, a_y)$ ,那么这个向量上的边缘分布函数,就可以利用线性映射:

其中 $\theta$ 是向量 $\vec{a}$ 与 $x$ 轴的夹角。

那么变换后的随机变量函数分布为:

然后使用其进行边缘分布函数的计算即可。

同样地,我们还可以不拘泥于直线,我们如果取一条曲线 $g(x, y) = c$ ,那么在这条曲线上的边缘分布函数,也可以使用类似的方法进行计算。

作弧长微元 $ds = \sqrt{dx^2 + dy^2}$ ,那么边缘分布函数为:

其中 作为梯度向量。

乍一看,这不正是高数里面的第一类曲线积分吗?在高等数学中,第一类线积分 $\int_L f(x,y) ds$ 的其中一个含义是:求函数 $f$ 沿着曲线 $L$ 的质量总和。

在概率论中,当我们想求联合 PDF $f(x,y)$ 沿着某条特定曲线(例如 $L$)的概率贡献时, 也就是将概率密度函数 $f(x,y)$ 沿着某条线 $L$ 其累加 。和第一类曲线积分一模一样!

条件分布 (Conditional Distribution)

条件分布描述的是在已知一个随机变量取值的情况下,另一个随机变量的分布情况。

对于离散变量的情况,我们考虑事件 $(Y=y_1)$ 已经发生下事件 $(X=x_1)$ 的发生概率:

而且其满足概率分布律:

  • $P(X=x_1|Y=y_1) \ge 0$
  • $\sum_{i>=1} P(X=x_i|Y=y_i) = 1$

对于连续变量来说,给定y,对于固定的 $\varepsilon > 0 \wedge \varepsilon \sim 0$ ,并且 $P(y 0$ ,有条件概率:

X的条件分布律

对于离散型随机变量 $X$ 和 $Y$,对于固定的j且 $P(Y=y_i)>0$ ,其X条件分布律为:

对于连续型随机变量 $X$ 和 $Y$,对于固定的y且 $y>0$ ,其X条件分布律为:

Y的条件分布律

对于离散型随机变量 $X$ 和 $Y$,对于固定的i且 $P(X=x_i)>0$ ,其Y条件分布律为:

对于连续型随机变量 $X$ 和 $Y$,对于固定的x且 $x>0$ ,其Y条件分布律为:

独立性 (Independence)

独立性描述的是两个随机变量之间是否相互独立。

对于离散型随机变量 $X$ 和 $Y$ ,如果对于所有的 $x_i, y_j$ 都有:

那么 $X$ 和 $Y$ 是独立的。

对于连续型随机变量 $X$ 和 $Y$ ,如果对于所有的 $x, y$ 都有:

对于二维正态随机变量(X,Y),X和Y相互独立的充要条件是 $\rho = 0$ 。

协方差

我们记 $X$ 和 $Y$ 为两个随机变量的协方差(Covariance)为:

协方差描述的是两个随机变量之间的线性关系,特别地,协方差为0,那么说明两个随机变量之间没有线性关系(相互独立)。

协方差的性质:

  • 求协方差: $Cov(X,Y)=E(XY)-E(X)E(Y)$
  • 对称性: $Cov(X,Y) = Cov(Y,X)$
  • 线性性: $Cov(aX+b, cY+d) = acCov(X,Y)$
  • 分配律: $Cov(X_1+X_2, Y) = Cov(X_1,Y) + Cov(X_2,Y)$
  • 协方差和方差的关系: 如果 $Z=aX+bY+c$ 那么 $D(Z)=a^2D(X)+b^2D(Y)+2abCov(X,Y)$

相关系数

我们记 $X$ 和 $Y$ 为两个随机变量的相关系数(Correlation Coefficient)为:

值得注意的是,通过除以标准差,它消除了量纲。它的取值范围严格在 $[-1, 1]$ 之间。

  • $\rho = 1$:完美的正向线性关系(映射成一条斜率为正的直线)
  • $\rho = -1$:完美的负向线性关系(映射成一条斜率为负的直线)
  • $\rho = 0$:没有任何线性趋势
  • 独立 $\implies$ 不相关(协方差为 0)
  • 不相关 $\not\implies$ 独立

映射视角的深度理解

如果我们将相关系数放到向量空间中去看,会发现它极其优美:

如果我们定义中心化变量 $\tilde{X} = X - E[X]$ 和 $\tilde{Y} = Y - E[Y]$,并把它们看作向量。

  • 协方差:就是这两个向量的内积 $\langle \tilde{X}, \tilde{Y} \rangle$
  • 相关系数:就是这两个向量夹角的余弦值 $\cos \theta$

当 $\theta = 0^\circ$(向量重合),$\cos\theta = 1$,完全正相关。当 $\theta = 90^\circ$(向量正交),$\cos\theta = 0$,线性无关。

数学期望

设 ${X_n}$ 为一个随机变量列,其数学期望:

  • 单个: $E(X) := \sum_{x} xP(X=x)$
  • 和: $E(\sum_i X_i) = \sum_i E(X_i)$
  • 平均: $E(\overline{X})=E(x)$

方差

设 ${X_n}$ 为一个随机变量列,其方差:

  • 单个: $D(X_n) = E(X_n^2) - [E(X_n)]^2$
  • 和:
  • 平均: $D(\overline{X})=D(x)/n$

两个随机变量的函数分布

Z=X+Y

对于离散型随机变量 $X$ 和 $Y$ ,其和 $Z=X+Y$ 的分布律为:

对于连续型随机变量 $X$ 和 $Y$ ,其和 $Z=X+Y$ 的概率密度函数为:

如果X和Y相互独立,那么:

一般地,有限个两两相互独立的正态随机变量的线性和仍然是正态随机变量。

比如 $X\sim N(\mu, \sigma^2)\ , \ Y\sim N(\mu’, \sigma’^2)\ , \ Z=X+Y$ ,那么 $Z\sim N(\mu+\mu’, \sigma^2+\sigma’^2)$ 。

Z=XY 和 Z=X/Y

对于连续随机变量 $X$ 和 $Y$ ,其乘积 $Z=XY$ 的概率密度函数为:

对于连续随机变量 $X$ 和 $Y$ ,其商 $Z=X/Y$ 的概率密度函数为:

M=max{X,Y} 和 N=min{X,Y}

对于两个相互独立的随机变量X、Y,其最大值 $M=\max{X,Y}$ 和最小值 $N=\min{X,Y}$ :

类似地,n个变量的最大值和最小值为:

矩、协方差矩阵

Moment

Moments of a function in mathematics are certain quantitative measures related to the shape of the function’s graph. For example, if the function represents mass density, then the zeroth moment is the total mass, the first moment (normalized by total mass) is the center of mass, and the second moment is the moment of inertia. If the function is a probability distribution, then the first moment is the expected value, the second central moment is the variance, the third standardized moment is the skewness, and the fourth standardized moment is the kurtosis.

简单来说数学中函数的矩是与其图形形状相关的某些定量度量

  • k阶矩:设X是随机变量,若对于所有的整数 $k \ge 1 $ ,$E[X^k] $ 都存在,则称 $E[X^k]$ 为X的k阶矩。
  • k阶中心矩: 设X是随机变量,若对于所有的整数 $k \ge 1 $ ,$E[(X-E[X])^k] $ 都存在,则称 $E[(X-E[X])^k]$ 为X的k阶中心矩。
  • k+l阶混合矩: 设X和Y是随机变量,若对于所有的整数 $k \ge 1 $ ,$E[XY^l] $ 都存在,则称 $E[XY^l]$ 为X和Y的k+l阶混合矩。
  • k+l阶混合中心矩: 设X和Y是随机变量,若对于所有的整数 $k \ge 1 $ ,$E[(X-E[X])(Y-E[Y])^l] $ 都存在,则称 $E[(X-E[X])(Y-E[Y])^l]$ 为X和Y的k+l阶混合中心矩。

其中,一阶矩就是期望(Mean),描述的是中心位置;二阶中心矩就是方差(Variance),描述的是离散程度;三阶中心矩就是偏度(Skewness),描述的是不对称性;四阶中心矩就是峰度(Kurtosis),描述的是尾部厚度。

不难发现,矩实际上与微积分上的导数类似,下面我们来寻找其相关性:

设 $X$ 是一个随机变量,其特征函数定义为:

考虑指数函数 $e^z$ 的泰勒级数在0点展开:

于是特征函数可以写成:

注意到 $E[X^k]$ 就是 $X$ 的 $k$ 阶矩。

现在,我们对 $\varphi_X(t)$ 关于 $t$ 进行 $n$ 次求导。
根据幂级数逐项求导的规则,只有项数 $k \ge n$ 的部分会保留,且在 $t=0$ 时,只有 $k=n$ 的那一项不为零:

  • 一阶导数:

    令 $t=0$ 有:$\varphi_X’(0) = i E[X] \implies E[X] = \frac{1}{i} \varphi_X’(0)$

  • n阶导数:

    在 $t=0$ 处,只有 $k=n$ 的项被保留,系数抵消后剩下:

因此

这就是为什么矩和微积分里面的求导类似。

一般地,对于一个多维随机向量 $\mathbf{X}$,其特征函数为 $\varphi_{\mathbf{X}}(\mathbf{t}) = E[e^{i\mathbf{t}^T\mathbf{X}}]$。

对其求二阶混合偏导数:

这正是混合矩。如果这些二阶导数排成一个矩阵,得到:

这说明:协方差矩阵(二阶矩)本质上就是特征函数在原点的 Hessian 矩阵(二阶导数矩阵)。

更深层地,请参阅矩的生成函数

协方差矩阵

设在概率空间 $(\Omega, \Sigma, P)$ ,$\Omega$ 上定义了随机向量 $\mathbf{X} = (x_1, x_2, \dots, x_n)^T \ , \ \mathbf{Y} = (y_1, y_2, \dots, y_m)^T$ ,若二者对应的期望和协方差分别为:

则这两列随机变量间的协方差矩阵为:

或者完整地表示为:

特别地,对于二维随机变量 $\mathbf{X} = (X, Y)^T$ ,其协方差矩阵为:

当然如果是一个随机向量 $\mathbf{X}$ 内部各维度的关系时,即 $\mathbf{\Sigma} = \mathbf{Cov}(\mathbf{X}, \mathbf{X})$ :

该矩阵一定是对称的,被称为自协方差矩阵(Self-Covariance Matrix),如果是两个不同的随机向量 $\mathbf{X}$(n维)和 $\mathbf{Y}$(m维)之间的关系时,则称为互协方差矩阵(Cross-Covariance Matrix)。

协方差矩阵的性质

  • 对称性: $\mathbf{Cov}(\mathbf{X}, \mathbf{Y}) = \mathbf{Cov}(\mathbf{Y}, \mathbf{X})^T$
  • 线性性:若 $\mathbf{Z} = \mathbf{AX} + \mathbf{b}$ ,则:
  • 几何性质:如果自协方差矩阵为 $\mathbf{\Sigma} = \mathbf{Cov}(\mathbf{X}, \mathbf{X})$ ,那么该矩阵可以被分解成:
  • 行列式 $|\mathbf{\Sigma}|$ :它代表了随机向量在空间中占据的“体积”。如果 $|\mathbf{\Sigma}|=0$,说明变量间存在完全的线性依赖,分布被“压扁”到了更低维的空间。
  • 迹 $Tr(\mathbf{\Sigma})$:等于所有特征值之和,也等于各维度方差之和。它代表了系统的总波动能量。

如果是自协方差矩阵的线性性:

若 $\mathbf{Z} = \mathbf{AX} + \mathbf{b}$,则:

大数定理

弱大数定理

设 ${X_N}$ 是一个相互独立随机变量序列,服从听一个分布 $F$,且 $E|X_i|=\mu \ (i=1,2\cdots) $ 存在,作前n个随机变量的算术平均,则对于任意的 $\varepsilon > 0$,有:

这个极限式 的含义是:当 $n$ 足够大时,随机变量序列 ${X_n}$ 的算术平均 $\bar{X}_n$ 与其期望 $\mu$ 的偏差小于 $\varepsilon$ 的概率趋于1。

通俗的解释就是:当样本数量足够多时,样本均值会非常接近于总体均值。

强大数定理

设 ${X_n}$ 是一个独立同分布的随机变量序列,若其期望 $E[X_i] = \mu$ 存在,作前 $n$ 个随机变量的算术平均,则有:

对于任意给定的 $\varepsilon > 0$,样本均值序列 ${\bar{X}_n}$ 偏离 $\mu$ 超过 $\varepsilon$ 的情况在整个序列中只会发生有限次。随着 $n$ 继续增加,该序列将永远待在 $(\mu - \varepsilon, \mu + \varepsilon)$ 范围内,而不会再跳出来。

通俗的解释:随着试验不断进行,均值这整条“路径”最终一定会归于平稳并锁定在真实均值上。

两者对比实际上就是:

  • 弱:在每一个足够大的时间点 $n$,均值跑偏的概率很小。但它允许均值在后续的时间点偶尔再跳出去一下,只要跳出去的频率越来越低。
  • 强:随着时间的推移,均值最终会粘在 $\mu$ 上。一旦它进入了 $\mu$ 的邻域,它就几乎不再有任何机会逃离。

中心极限定理

设 ${X_n}$ 是一个随机变量序列,我们令:

此时 $Y_n$ 为标准化随机变量,目的是将其变成均值为0,方差为1的随机变量。

证明如下:

  • 对于期望 $EY$:
    利用期望的线性性质 $E(aX + b) = aE(X) + b$:
  • 对于方差 $DY$:
    利用方差的性质 $D(aX + b) = a^2 D(X)$:由于 $EX$ 是常数,不影响方差,且 $(\sqrt{DX})^2 = DX$:

独立分布的中心极限定理

设 ${X_n}$ 是一个独立同分布的随机变量序列,若 $E[X_i] = \mu \ , \ D[X_i] = \sigma^2 >0$ 存在,

则随机变量之和 的标准化变量

的分布函数 $F_n(x)$ 对于任意的实数 $x$ ,有:

其中 $\Phi(x)$ 是标准正态分布的分布函数。

也就是说,对于均值为 $\mu $ 方差为 $\sigma^2$ 的独立同分布随机变量序列 ${X_n}$ 之和的标准化变量,当 $n$ 足够大时,其分布趋近于标准正态分布, 即

最下面的式子表示着,独立同分布变量的算术平均在n充分大时,其分布趋近于均值为 $\mu$ 方差为 $\sigma^2$ 的正态分布,这一推论是数理统计大样本统计推断的理论基础。

Lyapunov定理

设 ${X_n}$ 是一个相互独立随机变量序列,他们具有数学期望和方差

,若存在正数 $\delta$ ,使得当 $n\to\infty$ 时,有

则随机变量之和 $\sum_{i=1}^{n}X_i$ 的标准化变量

的分布函数 $F_n(x)$ 对于任意的实数 $x$ ,有:

也就是说在定理的条件下,随机变量

当n很大时,近似服从标准正态分布 N(0,1). 由此可知, 在当n很大时,近似服从正态分布 $N(\sum_{i=1}^{n} \mu_i, B_n^2)$.

这就说明了无论各个随机变量 $X_i$ 的分布是什么,只要它们相互独立,并且满足 Lyapunov 条件,那么它们的和的标准化变量 $Z_n$ 的分布总是趋近于标准正态分布。

De Moivre-Laplace 定理

设 ${X_n}$ 是一个二项随机变量序列,其参数为 $n$ 和 $0<p<1$ ,则对于任意的 $x$ 有:

其中 $\Phi(x)$ 是标准正态分布的分布函数。

这个定理表明正态分布是二项分布的极限分布

以上公式中的 $\sigma^2 >0$ 强调了该变量为随机变量,而不是一直某个具体的值。

抽样

一些概念

设X是具有分布函数F的随机变量,若 $X_1, X_2, \cdots, X_n$ 是相互独立具有同一分布函数F的随机变量,则称 $X_1, X_2, \cdots, X_n$ 为简单随机样本,称n为样本容量,他们的观察值 $x_1, x_2, \cdots, x_n$ 为样本值

对于该样本的分布函数为:

概率密度为:

直方图

直方图是一种统计图形,用于展示数据的分布情况。它通过将数据分成若干个区间(称为“箱”或“bin”),并计算每个区间内数据点的数量,然后将这些数量绘制成柱状图来表示。直方图可以帮助我们了解数据的集中趋势、离散程度和形状等信息。

直方图的主要特点包括:

  • 每个柱子之间通常是没有间隔的。
  • 直方图的宽度可以表示区间的宽度。
  • 柱子的面积代表频率。

箱线图

箱线图(Box Plot)是一种常用的统计图形,用于展示数据的分布情况。它通过绘制一组数据的五数概括(最小值、第一四分位数、中位数、第三四分位数和最大值)来表示数据的分布情况。

箱线图的主要特点包括:

  • 箱线图通常由一个矩形框和两个“胡须”组成。
  • 矩形框的上下边界分别表示第一四分位数(前25%)和第三四分位数(前75%),中间的线表示中位数。
  • “胡须”的上下边界分别表示最小值和最大值。

若在某个数据中,存在不寻常地大于或者小于该集中数据则称为疑似异常值,此时箱线图中的线应该是去掉该异常值后的最大或者最小,而异常值则用点(*)表示。

样本统计量

在实际的研究中,我们通常不是直接使用样本本身,而且针对不同的问题构造样本的适当函数,利用这些样本的函数进行推断。

若 $X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的样本,$g(X_1,X_2 \cdots X_n)$ 是样本 $X_1, X_2, \cdots, X_n$ 的函数,若g中不含有未知参数,则称 $g(X_1,X_2 \cdots X_n)$ 为样本统计量。

因为 $X_1, X_2, \cdots, X_n$ 都是随机变量,所以统计量 $g(X_1,X_2 \cdots X_n)$ 也是一个随机变量。设 $x_1,x_2\cdots x_n$ 是相应于样本的样本值,则称 $g(x_1,x_2\cdots x_n)$ 为样本统计量的观察值。

  • 样本均值
  • 样本方差
  • 样本标准差
  • 样本k阶(原点)矩
  • 样本k阶中心矩

其观察值就是将大写的 $X$ 替换为小写的 $x$ 后的结果。

  • 样本均值的均值

  • 样本均值的方差

  • 样本方差的均值

  • 样本方差的方差

我们知道:

首先计算 $S^2$ :

令 $T_2 = \sum X_i^2 \ , \ T_1 = \sum X_i$ 继续计算 $S^4$ :

继续求期望$E[T_2^2] \ , \ E[T_2 T_1^2] \ , \ E[T_1^4]$ ,这里我用组合数学里面的贡献法来计算:

计算$(n-1)^2 E[(S^2)^2]$ :

得到 ,带入 $(*)$ 得到:

于是,样本方差的方差为:

但注意到对于正态分布 $X \sim N(0, \sigma^2)$ ,带入有:

因此样本方差的方差为 $\frac{2\sigma^4}{n-1}$ 。

抽样分布

卡方分布

设 $X_1,X_2,\cdots,X_n$ 是来自总体服从正态分布 N(0,1) 的样本,则随机变量

服从自由度为 $n$ 的卡方分布,记为 $ \chi^2 \sim \chi^2(n) $ ,其中自由度指的是独立变量的个数。

卡方分布的概率密度函数为:

其中,$ \Gamma(\cdot) $ 是伽马函数 $\Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt $。

卡方分布的期望和方差分别为:

性质

  • 卡方分布可加性:若 $\chi^2_1 \sim \chi^2(n_1) \ , \ \chi^2_2 \sim \chi^2(n_2)$ ,且 $\chi^2_1$ 与 $\chi^2_2$ 相互独立,则
  • 卡方分布的上分位数:对于给定的 $ \alpha $ ,其上分数是

用途: 拟合优度与独立性检验

  • 实际情况理论预期像不像。
  • 比如知道“性别”和“对创新药板块的偏好”有没有关系。收集数据后,算出卡方值,如果卡方值很大,说明两者不独立,即性别确实会影响投资偏好。

t分布

设 $X \sim N(0,1)$ , $Y \sim \chi^2(n)$ ,且 $X$ 与 $Y$ 相互独立,则随机变量

服从自由度为 $n$ 的 $t$ 分布,记为 $t \sim t(n)$ 。

$t$ 分布的概率密度函数为:

当n趋近于无穷大时, $t$ 分布趋近于标准正态分布 $N(0,1)$ 。

$t$ 分布的期望和方差分别为:

性质

  • $t$ 分布分位数对称:

用途:均值的推断

  • 当样本量很小(通常 $n < 30$ )且不知道总体方差时,用来给均值做推断
  • 比如手里只有 10 天的军工板块收益率数据,想判断这 10 天的平均收益是否显著大于 0。这时候必须用 t 检验,因为 t 分布考虑了小样本带来的额外不确定性(厚尾)。

F分布

设 $X \sim \chi^2(n_1)$ , $Y \sim \chi^2(n_2)$ ,且 $X$ 与 $Y$ 相互独立,则随机变量

服从自由度为 $n_1$ 和 $n_2$ 的 $F$ 分布,记为 $F \sim F(n_1,n_2)$ 。

$F$ 分布的概率密度函数为:

用途: 方差的比较(波动率对比)

  • 比较两组数据的波动是否有显著差异
  • 比如知道半导体板块的波动是否比银行板块显著更剧烈。算出两个板块的方差比值,这个比值就服从 F 分布。如果 F 值很大,就说明半导体板块的波动显著更剧烈。
  • 方差分析:用于判断多组变量的平均表现是否有显著差异、或者只是随机波动

正态分布的样本均值与样本方差的分布

引理:设总体X(无论服从何种分布)的均值和方差分别为 $\mu \ , \ \sigma^2$ , $X_1, X_2,\cdots , X_n$ 是来自总体X的样本,样本均值为 $\overline{X}$ 和样本方差为 $S^2$ ,则有:

得到: $E(S^2)=\sigma^2$ 。

用引理,可以证明:对于总体满足 $X\sim N(\mu,\sigma^2)$ ,则样本均值 $\overline{X}$ 满足分布:

样本方差 $S^2$ 满足分布:

并且 $\overline{X}$ 与 $S^2$ 相互独立。

同时也满足分布 $\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$

参数估计

点估计

该问题一般是总体X分布函数的形式已知,具体的几个参数未知,需要通过样本数据来估计这些参数,具体建模如下:

设总体X的分布函数 $F(x;\theta ,\cdots)$ ,其中 $\theta$ 是未知参数, $X_1,X_2,\cdots,X_n$ 是来自总体X的样本,点估计就是需要找到一个统计量 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ ,使得 $\hat{\theta}$ 尽可能接近 $\theta$ 。

矩估计法

Method of Moments Estimator

  1. 求总体各阶矩 $E(X^k)$ , $k=1,2,\cdots$ 含m个未知参数
  2. 将样本矩 $E(X^k)=\frac{1}{n}\sum_{i=1}^{n}X_i^k$ 代入总体各阶矩,得到关于未知参数的方程组:
  1. 解方程组,得到未知参数的估计值 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m$ ,即 $\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m)$

最大似然估计法

若总体X属于离散型,其分布律为 $P(X=x;\theta)=p(x;\theta)$ ,其中 $\theta$ 是未知参数, $X_1,X_2,\cdots,X_n$ 是来自总体X的样本,则似然函数为:

当然如果是连续型,则似然函数为:

步骤:

  1. 写出似然函数
  2. 对似然函数取对数,得到对数似然函数 $\ln L(\theta)$
  3. 对对数似然函数求导,得到似然方程 $\frac{\partial \ln L(\theta)}{\partial \theta}=0$
  4. 解似然方程(组),得驻点,后求二阶导,判断驻点是否为极大值点,以及在 $\theta \in D$ 的范围内是否取最大值,若满足,则该驻点为 $\theta$ 的极大值点,即为所求最大似然估计(Maximum Likelihood Estimator)值 $\hat \theta $ 。