Line 31: Line 31:
 
以上的<math>R_i </math> 定义为决策规则决定选 <math> \omega_i </math>的领域,然后 <math>\epsilon_i</math> 是<math>L_i</math>选错的概率。
 
以上的<math>R_i </math> 定义为决策规则决定选 <math> \omega_i </math>的领域,然后 <math>\epsilon_i</math> 是<math>L_i</math>选错的概率。
  
Neyman-Pearson 测试
+
==Neyman-Pearson 测试==
 
如果你曾经上过入门的统计学课,你大概能想起传统的 '''假设检验'''. 如下为例子:
 
如果你曾经上过入门的统计学课,你大概能想起传统的 '''假设检验'''. 如下为例子:
一位人类学研究生认为他所观察的两种部落有不同的各自高度。把<math>\mu_A </math> 和 <math>\mu_B </math>定义为 部落A和部落B的人均各自高度,所以等于说<math> \mu_A - \mu_B \neq 0 </math>。为了检验他的假设,他就从不哦啰A和部落B随机性地选出了N个人的样本,然后两侧各人的各自高度,最后算了样本均值<math>\bar{X_A},\bar{X_B}</math>和样本标准差 <math>S_A^2,S_B^2 </math>。然后用如下的假设检验.
+
一位人类学研究生认为他所观察的两种部落有不同的各自高度。把
 +
<math>\mu_A </math>  
 +
和  
 +
<math>\mu_B </math>
 +
定义为 部落A和部落B的人均各自高度,所以等于说
 +
<math> \mu_A - \mu_B \neq 0 </math>
 +
为了检验他的假设,他就从不哦啰A和部落B随机性地选出了N个人的样本,然后两侧各人的各自高度,最后算了样本均值
 +
<math>\bar{X_A},\bar{X_B}</math>
 +
和样本标准差  
 +
<math>S_A^2,S_B^2 </math>
 +
然后用如下的假设检验.
 +
 
 
零假设 (H0):  
 
零假设 (H0):  
 
<math> \mu_A - \mu_B = 0 </math>
 
<math> \mu_A - \mu_B = 0 </math>
Line 41: Line 52:
  
 
Test statistic:
 
Test statistic:
  <math> T = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{(S^{2}_{A}+S^{2}_{B})/N}} </math>. 中心极限定理就让我们假设<math> T \sim N(0, 1) </math>.
+
  <math> T = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{(S^{2}_{A}+S^{2}_{B})/N}} </math>.  
 +
中心极限定理就让我们假设
 +
<math> T \sim N(0, 1) </math>.
 +
 
 
决策规则:  
 
决策规则:  
若<math> T < Z_{\frac{\alpha}{2}} || T > Z_{\frac{1 \alpha}{2}} </math>
+
 +
<math> T < Z_{\frac{\alpha}{2}} \parallel  T > Z_{\frac{1-\alpha}{2}} </math>
 
则选H0不然选Ha.
 
则选H0不然选Ha.
  
如上的<math>\alpha = P(判决规则让选Ha|H0正确)=P('''第一型錯誤''')</math>。反而'''第二型錯誤'''是判决规则让选H0|Ha正确.一般在这种假设检验,控制第一型錯誤的概率是最有限考虑。
+
如上的
 +
<math>\alpha = P(判决规则让选Ha|H0正确)=P('''第一型錯誤''')</math>
 +
反而'''第二型錯誤'''是判决规则让选H0|Ha正确.一般在这种假设检验,控制第一型錯誤的概率是最有限考虑。

Revision as of 18:18, 1 May 2014

Hypothesis Testing

模式识别 的目标是将新观察的特征向量进行分类。为了进行分类的决定,需要通过魔钟判决规则(decision rule)。在 统计学模式识别 一般假设特征向量是个随机变量“X”,又有个概率密度函数或者概率质量函数,并且此函数依赖其分类。如下假设有两个类型:($ \omega_1,\omega_2 $), 以便写公式也不失一般性。如此X的概率密度或质量函数是$ P(X|\omega_i) $ (如下称pdf)。每个类型的先验概率写成$ P(\omega_i) $

统计学的主要部分之一是假设检验。下面描述假设检验在统计学模式识别的眼神。

贝叶斯(Bayes)判决规则

$ g_i(X) $$ \omega_i $后验概率(posterior probability)。选$ \omega_1 $$ \omega_2 $的判决规则为: 如果$ g_1(X) > g_2(X) $,就选$ \omega_1 $, 不然选$ \omega_2 $。据贝斯定理, 判决规则能以 似然比(likelihood ratio)$ l(X) $ 表示:

$ \begin{align} & g_1(X) > g_2(X) \\ \Rightarrow & P(\omega_1|X) > P(\omega_2|X) \\ \Rightarrow & \frac{P(X|\omega_1)P(\omega_1)}{P(X)} > \frac{P(X|\omega_2)P(\omega_2)}{P(X)} \\ \Rightarrow & P(X|\omega_1)P(\omega_1) > P(X|\omega_2)P(\omega_2) \\ \Rightarrow & l(X)=\frac{P(X|\omega_1)}{P(X|\omega_2)} > \frac{P(\omega_2)}{P(\omega_1)} = k \end{align} $

k 是个常数,而且由于 $ P(\omega_2) = 1 - P(\omega_1) $, k 可以看待是先验概率的比值(odds) 。为了评估判决规则的效果,需要计算錯誤的概率。假如 $ r(X) = min[g_1(X), g_2(X)] $贝叶斯错误(Bayes error)定义为:

$ \begin{align} \\ \epsilon & = E(r(X)) = \int min(P(\omega_1)P(X|\omega_1), P(\omega_2)P(X|\omega_2))dX \\ &= P(\omega_1) \int_{R_2}P(X|\omega_1)dX + P(\omega_2) \int_{R_1} P(X|\omega_2)dX \\ &= P(\omega_1)\epsilon_1 + P(\omega_2)\epsilon_2 \end{align} $

以上的$ R_i $ 定义为决策规则决定选 $ \omega_i $的领域,然后 $ \epsilon_i $$ L_i $选错的概率。

Neyman-Pearson 测试

如果你曾经上过入门的统计学课,你大概能想起传统的 假设检验. 如下为例子: 一位人类学研究生认为他所观察的两种部落有不同的各自高度。把 $ \mu_A $$ \mu_B $ 定义为 部落A和部落B的人均各自高度,所以等于说 $ \mu_A - \mu_B \neq 0 $。 为了检验他的假设,他就从不哦啰A和部落B随机性地选出了N个人的样本,然后两侧各人的各自高度,最后算了样本均值 $ \bar{X_A},\bar{X_B} $ 和样本标准差 $ S_A^2,S_B^2 $。 然后用如下的假设检验.

零假设 (H0): $ \mu_A - \mu_B = 0 $

对立假设(Ha): $ \mu_A - \mu_B \neq 0 $

Test statistic:

$  T = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{(S^{2}_{A}+S^{2}_{B})/N}}  $. 

中心极限定理就让我们假设 $ T \sim N(0, 1) $.

决策规则: 若 $ T < Z_{\frac{\alpha}{2}} \parallel T > Z_{\frac{1-\alpha}{2}} $ 则选H0不然选Ha.

如上的 $ \alpha = P(判决规则让选Ha|H0正确)=P('''第一型錯誤''') $。 反而第二型錯誤是判决规则让选H0|Ha正确.一般在这种假设检验,控制第一型錯誤的概率是最有限考虑。

Alumni Liaison

Ph.D. 2007, working on developing cool imaging technologies for digital cameras, camera phones, and video surveillance cameras.

Buyue Zhang