Difference between revisions of "NeymanPearson中文Spring2014" - Rhea

Revision as of 17:50, 1 May 2014

Hypothesis Testing

模式识别 的目标是将新观察的特征向量进行分类。为了进行分类的决定，需要通过魔钟判决规则(decision rule)。在 统计学模式识别 一般假设特征向量是个随机变量“X”，又有个概率密度函数或者概率质量函数，并且此函数依赖其分类。如下假设有两个类型：（ $\omega_1,\omega_2$ ）, 以便写公式也不失一般性。如此X的概率密度或质量函数是 $P(X|\omega_i)$ (如下称pdf)。每个类型的先验概率写成 $P(\omega_i)$ 。

统计学的主要部分之一是假设检验。下面描述假设检验在统计学模式识别的眼神。

贝叶斯（Bayes)判决规则

将 $$ g_i(X) $$ 是 $\omega_i$ 的后验概率(posterior probability)。选 $\omega_1$ 或 $\omega_2$ 的判决规则为: 如果 $$ g_1(X) > g_2(X) $$ ,就选 $\omega_1$ , 不然选 $\omega_2$ 。据贝斯定理, 判决规则能以 似然比(likelihood ratio) $$ l(X) $$ 表示:

$\begin{align} & g_1(X) > g_2(X) \\ \Rightarrow & P(\omega_1|X) > P(\omega_2|X) \\ \Rightarrow & \frac{P(X|\omega_1)P(\omega_1)}{P(X)} > \frac{P(X|\omega_2)P(\omega_2)}{P(X)} \\ \Rightarrow & P(X|\omega_1)P(\omega_1) > P(X|\omega_2)P(\omega_2) \\ \Rightarrow & l(X)=\frac{P(X|\omega_1)}{P(X|\omega_2)} > \frac{P(\omega_2)}{P(\omega_1)} = k \end{align}$ k 是个常数,而且由于 $P(\omega_2) = 1 - P(\omega_1)$ , k 可以看待是先验概率的比值（odds) 。为了评估判决规则的效果，需要计算錯誤的概率。假如 $$ r(X) = min[g_1(X), g_2(X)] $$ 。贝叶斯错误(Bayes error)定义为： $\begin{align*} \\ \epsilon & = E(r(X)) = \int min(P(\omega_1)P(X|\omega_1), P(\omega_2)P(X|\omega_2))dX \\ &= P(\omega_1) \int_{R_2}P(X|\omega_1)dX + P(\omega_2) \int_{R_1} P(X|\omega_2)dX \\ &= P(\omega_1)\epsilon_1 + P(\omega_2)\epsilon_2 \end{align}$ 以上的 $R_i <\math> 定义为decision rule 决定选 <math> \omega_i$ 的领域，然后 $\epsilon_i$ 是 $L_i<\math>选错的概率。 Neyman-Pearson Test 如果你曾经上过入门的统计学课，你大概能想起传统的 '''假设检验'''. 如下为例子: 一位人类学研究生认为他所观察的两种部落有不同的各自高度。把<math>\mu_A <\math> 和 <math>\mu_B <\math>定义为部落A和部落B的人均各自高度，所以等于说<math> \mu_A - \mu_B \neq 0 <\math>。为了检验他的假设，他就从不哦啰A和部落B随机性地选出了N个人的样本，然后两侧各人的各自高度，最后算了样本均值<math>\bar{X_A},\bar{X_B}<\math>和样本标准差<math>S_A^2，S_B^2$ 。然后用如下的假设检验. 零假设 (H0): $\mu_A - \mu_B = 0 <\math> 对立假设(Ha): <math> \mu_A - \mu_B \neq 0 <\math> Test statistic: <math> T = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{(S^2_A+S^2_B)/N}}$ . 中心极限定理就让我们假设 $T \sim N(0, 1)$ . Decision Rule: 若 $T < Z_{\frac{\alpha}{2}} <\math> 或则 <math> T 》 Z_{\frac{1 － \alpha}{2}} <\math>，则选H0不然选Ha. 如上的<math>\alpha = P(判决规则让选Ha|H0正确)=P('''第一型錯誤''')$ 。反而第二型錯誤是判决规则让选H0|Ha正确.一般在这种假设检验，控制第一型錯誤的概率是最有限考虑。

@@ Line 1: / Line 1: @@
 ==Hypothesis Testing==
-'''模式识别''' 的目标是将新观察的特征向量进行分类。为了进行分类的决定，需要通过魔钟'''判决规则'''。在 '''统计学模式识别''' 一般假设特征向量是个随机变量“X”，又有个概率密度函数或者概率质量函数，并且此函数依赖其分类。如下假设有两个类型：（<math>\omega_1,\omega_2</math>）, 以便写公式也不失一般性。如此X的概率密度或质量函数是<math>P(X|\omega_i)</math> (如下称pdf)。每个类型的'''先验概率'''写成<math>P(\omega_i)</math>。
+'''模式识别''' 的目标是将新观察的特征向量进行分类。为了进行分类的决定，需要通过魔钟'''判决规则(decision rule)'''。在 '''统计学模式识别''' 一般假设特征向量是个随机变量“X”，又有个概率密度函数或者概率质量函数，并且此函数依赖其分类。如下假设有两个类型：（<math>\omega_1,\omega_2</math>）, 以便写公式也不失一般性。如此X的概率密度或质量函数是<math>P(X|\omega_i)</math> (如下称pdf)。每个类型的'''先验概率'''写成<math>P(\omega_i)</math>。
 统计学的主要部分之一是'''假设检验'''。下面描述假设检验在统计学模式识别的眼神。
 ==贝叶斯（Bayes)判决规则==
-将<math>g_i(X)</math> 是X来自 <math>omega_i</math> 的后验概率。选<math>\omega_1</math>或<math>\omega_2</math>的判决规
+将<math>g_i(X)</math> 是<math>\omega_i</math>的'''后验概率(posterior probability)'''。选<math>\omega_1</math>或<math>\omega_2</math>的判决规则为: 如果<math>g_1(X) > g_2(X)</math>,就选<math>\omega_1</math>, 不然选<math>\omega_2</math>。据贝斯定理, 判决规则能以 '''似然比(likelihood ratio)'''<math>l(X)</math> 表示:
-则为: 如果<math>g_1(X) > g_2(X)<\math>,就选<math>omega_1</math>, 不然选<math>omega 2</math>
-据贝斯定理, 判决规
-则能以 '''似然比(likelihood ratio)'''<math> l(X) </math> 表示:
 <math>\begin{align}
@@ Line 19: / Line 16: @@
 \end{align}
 </math>
+k 是个常数,而且由于 <math> P(\omega_2) = 1 - P(\omega_1) </math>, k 可以看待是先验概率的比值（odds) 。为了评估判决规则的效果，需要计算錯誤的概率。假如<math> r(X) = min[g_1(X), g_2(X)] </math>。'''贝叶斯错误(Bayes error)'''定义为：
-k 是个constant， 而且，由于 <math> P(\omega_2) = 1 - P(\omega_1) </math>, k 可以看待是prior比值 : 。
-Bayes Error
-为了评估我们的decision rule 的效果，需要计算probability of error
-Define conditional error : <math> r(X) = min[g_1(X), g_2(X)] </math>
-Define Bayes error:
 <math>
 \begin{align*}
@@ Line 34: / Line 25: @@
 \end{align}
 </math>
-以上的<math>R_i <\math> 定义为decision rule 决定选 <math> \omega_i <\math>的领域，然后 <math>\epsilon_i</math> 是<math>L_i<\math>选错的概率。
+以上的<math>R_i <\math> 定义为decision rule 决定选 <math> \omega_i </math>的领域，然后 <math>\epsilon_i</math> 是<math>L_i<\math>选错的概率。
 Neyman-Pearson Test
-如果你曾经上过入门的统计学课，你大概能想起传统的 ** 假设检验 **. 如下为例子:
+如果你曾经上过入门的统计学课，你大概能想起传统的 '''假设检验'''. 如下为例子:
 一位人类学研究生认为他所观察的两种部落有不同的各自高度。把<math>\mu_A <\math> 和 <math>\mu_B <\math>定义为 部落A和部落B的人均各自高度，所以等于说<math> \mu_A - \mu_B \neq 0 <\math>。为了检验他的假设，他就从不哦啰A和部落B随机性地选出了N个人的样本，然后两侧各人的各自高度，最后算了样本均值<math>\bar{X_A},\bar{X_B}<\math>和样本标准差<math>S_A^2，S_B^2</math>。然后用如下的假设检验.
 零假设 (H0): <math> \mu_A - \mu_B = 0 <\math>

Difference between revisions of "NeymanPearson中文Spring2014" - Rhea

Revision as of 17:50, 1 May 2014

Hypothesis Testing

贝叶斯（Bayes)判决规则

Alumni Liaison