by Jason Han
1. MLE,极大似然估计
MLE把带估计的参数看做确定的量,其目标函数是使得以观察到的样本的概率最大:
$$
\operatorname{argmax}p(X \mid \theta)=\operatorname{argmax}\prod_{x_1}^{x_n} p(x_i \mid \theta) \tag{1}
$$
对数化处理后为:
$$
\operatorname{argmax}\prod_{x_1}^{x_n} p(x_i \mid \theta)=\operatorname{argmax}\sum_{x_1}^{x_n} \log p(x_i \mid \theta) \tag{2}
$$
即:
$$
\left\{
\begin{aligned}
&L(\theta) = \sum_{x_1}^{x_n} \log p(x_i \mid \theta)\\
&\frac{\partial L}{\partial \theta} =0\\
\end{aligned}
\right. \tag{3}
$$
2. MAP,最大后验估计
MAP寻求的是能使后验概率$ P(\theta \mid X) $最大的 $ \theta $
值:
$$
\begin{aligned}
\operatorname{argmax}p(\theta \mid X) &=\operatorname{argmax} \frac{p(X \mid \theta) p(\theta)}{p(X)} \\
&=\operatorname{argmax}p(X \mid \theta) p(\theta)\\
&=\operatorname{argmax}\left(\prod_{x_1}^{x_n} p(x_i \mid \theta)\right) p(\theta)
\end{aligned} \tag{4}
\
$$
省略$P(X)$是因为$X$与$\theta$无关。对数化处理后,上式可表达为:
$$
\operatorname{argmax}\left(\sum_{x_1}^{x_n} \log p(x_i \mid \theta)+\log p(\theta)\right) \tag{5}
\
$$
相比于式(2),式(4)仅仅是多了一项 $p(\theta)$ ,这就是参数$\theta$的
。在实际中,当人们已经接受或知道的普遍的规律时,可以对预先给出这一规律。比如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,且基本在0.5处去最大值,这就是先验分布。对于先验分布,一般会给出一个超参数:
$$
p(\theta)=p(\theta \mid \alpha) \tag{6}
$$
式(7)中超参数的求解,与极大似然估计一样,求导等于0。
在MLE和MAP中,都是通过对函数求极值确定参数,都不会考虑$p(X)$;而在贝叶斯估计中,不再考虑极值,而是使用$$p(X)$$ 直接取出$p(\theta \mid X)$:
$$
p(\theta \mid X)=\frac{p(X \mid \theta) p(\theta)}{p(X)} \tag{7}
$$
然后对于一个样本$x$,可计算其概率:
$$
p(x \mid X)=\int_{\theta \in \Theta}p(x \mid \theta)p(\theta \mid X)\operatorname{d}\theta \tag{8}
$$