正規母集団 \mathrm{N}\,(\mu , \, \sigma^2 ) から抽出された標本の平均を \overline{X}、不偏分散を s^2、標本の大きさを n とするとき、次式で定義される統計量 Tt 分布と呼ばれる理論分布に従います。

 T = \displaystyle \frac{\overline{X}-\mu}{ \displaystyle \frac{s}{\sqrt{n}} }

t 分布の確率密度関数は以下の通りです。

 f(t) = \displaystyle \frac{1}{\sqrt{\nu \pi}} \, \frac{\Gamma \left (\displaystyle   \frac{\nu+1}{2} \right )}{\Gamma\left (\displaystyle  \frac{\nu}{2} \right )} \left ( 1+\frac{t^2}{\nu} \right )^{ \textstyle  - \frac{\nu+1}{2} }

ここに、\nu\,(=n-1) は自由度と呼ばれるパラメータ、\Gamma はガンマ関数です。

冒頭の T の定義式は、データを標準化するときの変換式

 Z=\displaystyle \frac{X-\mu}{\sigma}

とよく似ています。\overline{X} \sim \mathrm{N}(\mu , \, \sigma^2/n) ですから(「9. 補遺 - iv. 標本平均の分布」参照)、 t 分布の形が正規分布に類似することは容易に想像できるでしょう。

R では t 分布の密度関数の値を関数 dt(x, df) で求めることができます。引数 x には横軸の値、df には自由度を設定します。試しにこの関数を用いて、自由度1、3、10 の t 分布曲線と標準正規分布曲線をプロットしてみましょう。以下のようなソースコードを実行します。

x <- seq(-6, 6, 0.01)
plot(x, dt(x, 1), ylim=c(0,0.4), type="l",
       xlab="t", ylab="density", main="t-distributions")
curve(dt(x, 3), lty="dashed", add=T)
curve(dt(x, 10), lty="dotted", add=T)
curve(dnorm(x, 0, 1), col="grey", add=T)

下図において

  • 実線は自由度1の t 分布
  • 破線は自由度3の t 分布
  • 点線は自由度 10 の t 分布
  • グレーの曲線は標準正規分布

をそれぞれ表しています。

t-dist.png

t 分布の自由度をさらに増やして、たとえば 30 を超えると、その曲線は標準正規分布曲線と極めて類似するようになります。そして自由度が 100 になると両者はほとんど区別できなくなります(興味のある方は上のソースコードを変更して確認してみるとよいでしょう)。

t 分布に関する R の関数として、dt(x, df) のほかに pt(x, df) があります。これは、自由度 df の t 分布において、t=x のとき、この値をもとに「下側確率」を計算するために使用されます。たとえば自由度 10 の t 分布において t =2.00 ならば、下側確率は以下のようになります。

> pt(2.00, 10)
[1] 0.963306

この値は下図のグレーに塗りつぶした領域の面積に相当します。

t-dist2.png

ちなみに上のグラフは次のようなソースコードで作成しています。

t <- seq(-4, 4, 0.01)
density <- dt(t, 10)
plot(t, density, type="l", main="t-distribution")
tvals <- seq(-4, 2, length=100)
dvals <- dt(tvals,10)
polygon(c(tvals, rev(tvals)), c(rep(0,100), rev(dvals)), col="grey")
abline(h=0)

ところで、この「下側確率」は統計における「仮説検定」で重要な役割を演じています。なぜなら、標本が正規母集団 \mathrm{N}\,(\mu , \, \sigma^2 ) から抽出されたという仮定の下で、そのときの t 値が実現する確率(P-value)を、この下側確率を利用して次のような式で求めることができるからです。なお、abs は絶対値を求める R の関数です。

(1-pt(abs(t), df))*2

たとえば、t=2.00, df=10 ならば、この t 値が実現する確率は

> (1-pt(2.00, 10))*2
[1] 0.07338803

となります。

また、関数 qt(p, df) は pt(x, df) の逆関数で、下側確率と自由度を与えて t 値を求めます。これは信頼区間を算出するときに便利な関数です(詳しくは「9. 補遺 - i. 標準誤差」を参照してください)。

 

Front page   Edit Freeze Diff Backup Upload Copy Rename Reload   New List of pages Search Recent changes   Help   RSS of recent changes
Last-modified: 2011-12-11 (Sun) 20:54:02 (1103d)