指数族(Exponential Family)是数理统计中非常重要的一个分布族。它们的特点是概率密度函数或概率质量函数都可以写成指数函数的形式,其中指数函数的自变量是变量的某个线性函数。
定义
指数族的定义如下:
参数分布族$\{P_\theta:\theta \in \Theta\}$,其中 $\theta$ 是参数空间 $\Theta$ 上的向量值函数。
存在参数空间$\Theta$ 上的向量值函数 $\eta(\theta)$ 和实值函数 $g(\theta)$,使得对于所有 $\theta \in \Theta$,概率密度函数(PDF)或概率质量函数(PMF)可以表示为:
$$
P(x|\theta) = h(x) \exp\left(\eta(\theta)^T T(x) - A(\theta)\right)
$$
其中,$h(x)$ 是底层观测值(underlying measure),$T(x)$ 是充分统计量(sufficient statistic),$A(\theta)$ 是对数规则化(log normalizer)。
概率密度函数(PDF)或概率质量函数(PMF)
指数族的概率密度函数(PDF)或概率质量函数(PMF)具有以下形式:
$$
P(x|\lambda) = \frac{1}{Z(\lambda)} h(x) \exp(\phi(\lambda)^T T(x))
$$
其中,$x$ 是随机变量,$\lambda$ 是分布的未知参数,$Z(\lambda)$ 是归一化因子,使得概率总和为1。
常见分布
指数族包括许多常见的概率分布,如:
正态分布(Gaussian)
泊松分布(Poisson)
Gamma分布
Beta分布
Dirichlet分布
二项分布(Bernoulli)
多项式分布
应用
指数族在统计学、机器学习等领域有广泛应用。它们不仅应用广泛,而且可用于解决多种问题,例如:
减少计算成本
避免对数据的过拟合或欠拟合
作为统计推断的基础,如最大似然估计(Maximum Likelihood Estimation, MLE)和贝叶斯推断。
总结
指数族是一类具有相同形式的概率分布族,其概率密度函数或概率质量函数可以写成指数函数的形式。它们在统计学、机器学习等领域有广泛应用,并且具有许多优良的数学性质,使得它们成为解决实际问题的重要工具。