Bootstrap方法以及更正一些错误的理解

在和龙曦讨论一个“置信水平”和“置信区间”的问题过程中,对于参数估计中的置信区间的报道有了新的理解,而之前的理解在遇到一些问题时会出现错误。这里首先讲讲参数估计中置信区间的问题,然后介绍Bootstrap的方法,并用Bootstrap抽样作为例子解释置信区间的问题。

一、区间估计(李惕培《实验的数据处理》)

待估参量 \theta (真值也记为\theta)的一个样本 (x'_1, x'_2, \cdots , x'_N) 作为参数 \theta 的估计值 \hat{\theta}(x'_1, x'_2, \cdots , x'_N)

若估计值 \hat{\theta} 落入真值左右某个区间 [\theta-\Delta\theta_2, \theta + \Delta\theta_1] 的概率为 \xi

\xi = P_r(\theta - \Delta\theta_2 \leqslant \hat{\theta} \leqslant \theta + \theta_1)

Screen Shot 2017-12-03 at 7.57.36 PM

将不等式移项可得

P_r(\hat{\theta} - \Delta\theta_1 \leqslant \theta \leqslant \hat{\theta} + \Delta\theta_2) = \xi

即:在估计值 \hat{\theta} 左右的一个区间 [\hat{\theta} - \Delta\theta_1, \hat{\theta} + \Delta\theta_2 ] 内,包含参数真值 \theta的概率也是 \xi 。参数估计的结果报道为:

\theta = \hat{\theta}^{+\Delta\theta_2}_{-\Delta\theta_1}

Note: 在报道结果的时候,报道的是待估参量 \theta ,而样本的估计值的概率区间与真值的概率区间是不一致的,注意这里的区别。如果区间不是对称的,则报道值会出现错误。

二、Bootstrap 方法

若待估参量的样本有限,不能很好的反映待估参量的统计结果,则可使用Bootstrap方法进行抽样。用一组样本,进行重采样,得到基于这个样本的多个样本,对样本进行统计,得到待估参量的估计值。

举个例子。已知样本是 \hat{\theta} ( 1,3,5,7,9,11) ,我们考虑样本的平均值的估计量。该样本的平均值是6。我们对这个样本进行bootstrap重采样,即以\hat{\theta''}( 1,3,5,7,9,11) 为样本空间,产生多组样本(这里产生5组)。我们对于重采样的样本 \hat{\theta''} 将 参考样本 \hat{\theta} 视为待估参量 \theta。重采样样本的均值与参考样本的平均值的差值的分布为 -3, -2, 0, 1, 1。

若在 60% 的置信水平上,估计值 \hat{\theta} 的置信区间是 (-2, 0, 1),\Delta\theta_2 = 2, \Delta\theta_1 =1 则待估参量 \theta 的置信区间是 [\hat{\theta}-\Delta\theta_1, \hat{\theta}+\Delta\theta_2]。这里的待估参量则是真值,不是第一组参考样本的估计量,而这里的估计值则是第一组参考样本的估计量,所以

\theta = \hat{\theta}^{+\Delta\theta_2}_{-\Delta\theta_1}=6_{-1}^{+2}(置信水平 60%)