×

[PR]この広告は3ヶ月以上更新がないため表示されています。
ホームページを更新後24時間以内に表示されなくなります。

■分散分析・・・3つ以上の母集団の平均の差の検定
○ 2つの母集団の平均値に有意差があるかどうかはF検定→t検定で調べることができるが,3つ以上の集団について2つずつ取り出してテストしていたのでは組合わせが多く大変である.

○ 3つ以上の母集団について平均値に有意差があるかどうかを調べる方法として,分散分析がある.

○ 結果に影響を及ぼす様々な要因のうちで,他の要因は変えずに1つの要因の違いだけに着目して,その平均値に有意差があるかどうか調べるものを「一元配置法」(1因子の分散分析)という.・・・表1参照

○ 2つの要因の組合わせを考えるものを「二元配置法」(2因子の分散分析)といい,二元配置法には「繰り返しのない二元配置」と「繰り返しのある二元配置」(・・・表2参照)がある.
表1
  A群 B群 C群 全体
1回目 21.0 23.5    
2回目 22.7 24.2 25.2  
3回目 24.9   26.5  
4回目 25.5 23.6 22.3  
5回目 27.0 28.4    
6回目 27.4   24.5  
平均 24.75 24.93 24.63 24.76
表2
  A B群
C方式 10.6 11.3
  11.7 12.7
  15 13.8
  13.6 14.7
  14 15.8
  15.4 14.7
D方式 20 21.5
  21.3 22.2
  22.8 11.1
  13.8 24.7
  24.2 25.3
  25.3 26.1
■考え方
◇一元配置法のイメージ◇
 資料の値の変動は,右図のように群(グループ,列,級)間の変動と個々の資料の群内変動(誤差による変動)に分けられる.すなわち,個々の値:yij ,列平均:,全体平均:とすると
yij = + ( - ) +(yij - )
yij - = ( - ) +(yij - )
 2乗和を計算すると
(総変動)=(群間変動)+(群内変動)
に分けられる.
 そこで,
F=(群間変動の不偏分散)/(群内変動の不偏分散)
で定義されるF値が大きければ,群ごとの平均値に有意差があると考える.

(この場合,通常のF値の扱いと異なり,大きい方を分子にするのでなく,必ず群間の不偏分散を分子とする.右図参照)


■Excelでの操作
◇一元配置法◇
○ 定義に従って表を組み立てるとき:(実務は分析ツールがお薦め)

 右の表3のようなデータがあるとき,平均値の差は簡単に分かるがそれが有意差なのか,誤差の範囲程度のものなのかを判断するには:

(1) 群ごとの平均,全体平均を計算する:
B11に =AVERAGE(B2:B9)・・・数値が入力されたセルのみの平均
D11までコピー・貼り付け
E11に =AVERAGE(B2:D9)
(2)
 群内変動(誤差による変動)を計算する:
B13に =(B2-B$11)^2
これを空白セル以外にコピー・貼り付け
(C列では =(C2-C$11)^2 などとなる)

列ごとの和を求める:B21に =SUM(B13:B20)
D21までコピー・貼り付け
E21に横の和 =SUM(B21:D21)

群内変動の不偏分散を求めるとき,自由度は(標本数)-(この計算に用いる平均値の個数)=(7+6+5)-3=15 とする.
以上により,群内変動の不偏分散=63.1/15=4.20
上記(1)(2)の短縮法:各群の標本数をp,q,rとするとき,各不偏分散は
u1=など
だから,
(偏差平方和)=(p-1) u1+(q-1) u2+(r-1) u3
(自由度)=(p-1)+(q-1)+(r-1)

群内変動の不偏分散
=

そこで,
=VAR(B2:B9)・・・(2)などにより各群内変動の不偏分散を求めておき,
=SUMPRODUCT
(不偏分散の範囲,自由度の範囲)を自由度の和15で割れば(群内変動の不偏分散)=4.20が求まる.
(3) 群間変動を計算する:
 
(各群の平均-全体平均)2 を求めて,列ごとに和を求めるが,右の表のようにこの値は列ごとに一定だから,
(各群の平均-全体平均)2 ×(標本数)でよい.
・・・・標本数を掛けることが重要

 次に,群間変動の不偏分散を求めるときに,その計算に用いた新たな平均値は全体平均1個だから,自由度=群の個数-1=2
 以上により,群間変動の不偏分散=群間変動/2=26.32
(4) F値を求める:
F = 26.32/4.20 = 6.26

  ※ 右のような分散分析表にまとめる.

(5) F検定で判断する:
=FINV(0.05, 分子自由度2,分母自由度15) = 3.68<6.26 により 群ごとの平均値に有意差がある.
または
=FDIST(F値 6.26, 分子自由度2,分母自由度15) = 0.01<0.05により群ごとの平均値に有意差がある.


○ 分析ツールを用いるとき:(実務向き)
(空白データが含まれるのはよいが,「欠席」などと文字列が記入してある場合,分析ツールは使えないので空白とする.)


ツール→分析ツール→分散分析:一元配置
入力範囲を 上の表3の水色で示した範囲とする.(この場合は「先頭行をラベルとして使用」にチェックを入れる.)

==> 右の表4のように出力される.
各々の数値と上の解説とは文字色により対応を示した.
【要点】
P-値0.01が0.05よりも小さいから有意差ありと判断する.
または
観測された分散比6.26>F境界値3.68だから有意差ありと判断する.
表3
  A B C D E
1 元データ 1組 2組 3組  
2 1回目 31.2 23.3 29.8  
3 2回目 29.5 30.3    
4 3回目   28.6 31.0  
5 4回目 33.5   32.5  
6 5回目 30.0 27.4    
7 6回目 29.6   28.4  
8 7回目 32.8 28.7    
9 8回目 32.7 25.6 27.8  
10         全体
11 平均 31.33 27.32 29.90 29.6

12 群内変動 1組 2組 3組  
13 1回目 0.0 16.1 0.0  
14 2回目 3.3 8.9    
15 3回目   1.6 1.2  
16 4回目 4.7   6.8  
17 5回目 1.8 0.0    
18 6回目 3.0   2.3  
19 7回目 2.2 1.9    
20 8回目 1.9 2.9 4.4 全体
21 16.9 31.5 14.6 63.1
22 標本数  7 6 5
23 自由度 6 5 4 15

群間変動 A B C  
1回目 3.0 5.2 0.1  
2回目 3.0 5.2    
3回目   5.2 0.1  
4回目 3.0   0.1  
5回目 3.0 5.2    
6回目 3.0   0.1  
7回目 3.0 5.2    
8回目 3.0 5.2 0.1 全体
21.1 31.1 0.5 52.65

分散分析表    
要因 平方和 自由度 不偏分散 分散比(F値)
群間 52.65 2 52.65/2=26.32 26.32/4.20=6.26
群内(誤差) 63.06 15 63.06/15=4.20  
全体 115.71 17    









表4
分散分析 : 一元配置      
             
概要            
グループ 標本数 合計 平均 分散    
1組 7 219.30 31.3
2.81
   
2組 6 163.90 27.32 6.31    
3組 5 149.50 29.90 3.66    
             
             
分散分析表            
変動要因 変動 自由度 分散 観測され
た分散比
P-値 F 境界値
グループ間 52.65 2 26.32
6.26 0.01
3.68
グループ内 63.06 15 4.20      
             
合計 115.71 17        
◇繰り返しのない二元配置法◇
 2つの要因を同時に変化させた幾つかの観測結果から,各々の要因が及ぼす影響を判断する・・・例えば,温度と塩分濃度の両方を変化させてバクテリアの増加を観測する,4種類の苗を3箇所に植えて成長を観察する,など.

 個々の値を
(全体の平均)+(列の効果)+(行の効果)+(誤差)
に分けて考える.
 ここで,
(列の効果)=(列の平均)-(全体の平均)
(行の効果)=(行の平均)-(全体の平均)

(誤差)=(個々の値)-(全体の平均)-(列の効果)-(行の効果)
で定義する.
次に,
列間の分散比=列間不偏分散/誤差の不偏分散
行間の分散比=行間不偏分散/誤差の不偏分散
により,列,行の平均値に有意差があるかどうか判断する.
○ 定義に従って表を組み立てるとき:(実務は分析ツールがお薦め)

 右の表5のような元データがあるとき:
(1) 行平均列平均全体平均を求める.
(2) (行の効果)=(行平均)-(全体平均) の表を右側に作る.(この値は,各行で等しい)
(3) (列の効果)=(列平均)-(全体平均) の表を下側に作る.(この値は,各列で等しい)
(4) (誤差)=(元の値)-(行の効果)-(列の効果) の表を右下に作る.
(5) 行変動の2乗和 を計算し,行変動の欄に書き込む
B15 に =SUMSQ(H2:J5)
行変動の自由度の計算に当り,変数は4個,使用した平均値は全体平均の1個だから自由度は3(行数-1)
 ※行平均の不偏分散 =VAR(G2:G5) から計算するときは,3倍することが重要.
行の不偏分散は0.162/3=0.054
(6) 列変動の2乗和 を計算し,列変動の欄に書き込む
B16 に =SUMSQ(B10:D13)
列変動の自由度の計算に当り,変数は3個,使用した平均値は全体平均の1個だから自由度は2(列数-1)
 ※列平均の不偏分散 =VAR(B7:D7) から計算するときは,4倍することが重要.
列の不偏分散は1.598/2=0.799
(7) 誤差の2乗和 を計算し,誤差変動の欄に書き込む
B17 に =SUMSQ(H10:J13)
誤差変動の自由度の計算に当り,変数は3×4=12個,使用した平均値は周辺値として行平均が4個,列平均は3個,さらに全体平均が1個あるから,自由度=12-3-2-1=6
誤差の不偏分散は0.511/6=0.085
(8) 
列間の分散比=列間不偏分散/誤差の不偏分散=0.63
5%F値は=FINV(0.05,3,6) = 4.76 0.63<4.76で有意差なし
または =FDIST(E15,3,6) = 0.6198>0.05により有意差なし

行間の分散比=行間不偏分散/誤差の不偏分散=9.37
5%F値は=FINV(0.05,2,6) = 5.14>4.76で有意差あり
または =FDIST(E16,2,6) = 0.0143<0.05で有意差あり
表5
  A B C D E F G H I J
1 元のデータ A B C 行平均 行の効果 A B C
2 1組 2.97 3.21 4.26 3.480 1組 -0.045 -0.045 -0.045
3 2組 3.07 3.53 4.23 3.610 2組 0.085 0.085 0.085
4 3組 3.31 3.35 3.41 3.357 3組 -0.168 -0.168 -0.168
5 4組 3.15 3.68 4.13 3.653 4組 0.128 0.128 0.128
6         全体        
7 列の平均 3.125 3.443 4.008 3.525        
8  
9 列の効果 A B C 誤差 A B C
10 1組 -0.400 -0.083 0.483 1組 -0.110 -0.188 0.298
11 2組 -0.400 -0.083 0.483 2組 -0.140 0.003 0.138
12 3組 -0.400 -0.083 0.483 3組 0.353 0.076 -0.429
13 4組 -0.400 -0.083 0.483 4組 -0.103 0.109 -0.006
14   変動 自由度 不偏分散 分散比 5%F値      
15 0.162 3 0.054 0.63 4.76 有意差なし  
16 1.598 2 0.799 9.37 5.14 有意差あり  
17 誤差 0.511 6 0.085          
○ 分析ツールを用いるとき:(実務向き)
 ※ 標本数が異なるとき(空欄を含むとき)不可

ツール→分散ツール→分散分析:繰り返しのない二元配置
入力範囲:A1:D5(左欄のラベル,上欄のラベルとも入れてよい.このときは「ラベル」にチェックを付ける.)
ラベル:チェック

右のように出力される(小数点以下の桁数はもう少し多い).
主な数値の上記「定義に従った計算」との対応は,同じ文字色で示した.
分散分析 : 繰り返しのない二元配置      
             
概要 標本数 合計 平均 分散    
1組 3 10.440 3.480 0.471    
2組 3 10.830 3.610 0.341    
3組 3 10.070 3.357 0.003    
4組 3 10.960 3.653 0.241    
             
A 4 12.500 3.125 0.021    
B 4 13.770 3.443 0.042    
C 4 16.030 4.008 0.162    
             
             
分散分析表      
変動要因 変動 自由度 分散 観測された分散比 P-値 F 境界値
0.162 3 0.054 0.634 0.620 4.757
1.598 2 0.799 9.372 0.014 5.143
誤差 0.512 6 0.085      
             
合計 2.272 11        
◇繰り返しのある二元配置法◇

 右の表6のように教科と組別の2つの要因があって,それらの組合わせ(1組の英語など)ごとに繰り返し試験が行われたとする.
 このとき,教科の要因は英語・数学の2つの値をとり水準は2となり,組別の要因は1組・2組の2つの値をとり水準は2となる.また,これらの各組合わせについて,上から順に1回目,2回目,・・の計4回の試験が行われているので,「繰り返し数」は4となる.
 このようなデータの分散分析を「繰り返しのある二元配置法」という.

 「繰り返しのある二元配置法」では,「繰り返しのない二元配置法」の場合に加えて,さらに,交互作用の効果を分析することができる.
 組別の平均点の差が列の主効果として,教科の平均点の差が行の主効果として得られるのは,「繰り返しのない二元配置法」と同じであるが,これらの組合わせ・・・例えば,1組の数学・・・に,組別,教科別の効果だけでは説明できない得点の増減が見られる場合に,これを交互作用の効果という.
 右図1のように,個々の値を
(全体の平均)+(列の効果)+(行の効果)+(交互作用の効果)+(誤差)
に分けて考える.
 ここで,
(列の効果)=(列の平均)-(全体の平均)
(行の効果)=(行の平均)-(全体の平均)


(交互作用の効果)=(小ブロックの平均)-(全体平均)-(列の効果)-(行の効果)
(誤差)=(個々の値)-(全体の平均)-(列の効果)-(行の効果)-(交互作用の効果)
で定義する.

次に,
行の分散比=行の不偏分散/誤差の不偏分散
列の分散比=列の不偏分散/誤差の不偏分散
交互作用の分散比=交互作用の不偏分散/誤差の不偏分散
により,行,列,交互作用の平均値に有意差があるかどうか判断する.
表6
教科 1組 2組
英語 56.4 55.1
  52.3 53.4
   50.2 63.2
  45.2 56.3
数学 58.6 50.6
  67.8 55.3
  60.2 45.8
  55.8 55.2
図1

※次のように定義しても同じ結果が得られる.

(誤差)=(個々の値)-(小ブロックの平均)
(交互作用の効果)=(個々の値)-(誤差)-(行の効果)-(列の効果)


※ 「1組・英語」のような小ブロックの平均-全体平均
のうち,「行の効果」「列の効果」を取り除いたものが「交互作用の効果」となる.
○ 定義に従って表を組み立てるとき:(実務は分析ツールがお薦め)
右の表7のような元データがあるとき,
(1) 小ブロックごと,行ごと,列ごと,全体の平均を求めておく.(表8

 ※ 以下の表は同一数値が繰り返し現われ冗長であるが,イメージ作りのためなので実際の計算は「×個数」で済ませることができる.計算内容を一度確認すれば,以後は,分析ツールだけでよい.

(2) 表9のように(小ブロックの平均)-(全体平均)の表を作る・・・この数値は各小ブロックごとに同じ数値となる.
     例 B12〜B15  =$F$2-$H$4
(3) 表10のように(組別平均)-(全体平均)の表を作る・・・・・・この数値は組別に同じ数値となる.
     例 B22〜B29  =F$4-$H$4
(4) 表11のように(教科平均)-(全体平均)の表を作る・・・・・・この数値は教科ごとに同じ数値となる.
     例 B32〜C35  =$H$2-$H$4
(5) 表12のように
(小ブロックの平均)-(全体平均)-(教科の効果)-(組別の効果)の表を作る・・・・・・この数値は小ブロックごとに同じ数値となる.
     例 B42   =B12-B22-B32
     以下は,相対参照のコピー・貼り付けでできる.
(6) 表13のように
(元の値)-(全体の平均)-(教科の効果)-(組別の効果)-(交互作用の効果)の表を作る.
     例 B52   =B2-$H$4-B22-B32-B42
     以下は,相対参照のコピー・貼り付けでできる.
(7) 表14のように分散分析表をまとめる.
i) 教科の主効果の平方和 B62に =SUMSQ(B32:C39)
ii) 組別の主効果の平方和 B63に =SUMSQ(B22:C29)
iii) 交互作用の効果の平方和 B64に =SUMSQ(B42:C49)
iv) 誤差の平方和 B65に =SUMSQ(B52:C59)

v) 自由度については:
 教科の変数は2個で,教科の効果の平方和計算には,(教科平均)-(全体平均)で全体平均を使うから,教科の自由度は2-1=1
 組別の変数は2個で,組別の効果の平方和計算には,(組別平均)-(全体平均)で全体平均を使うから,組別の自由度は2-1=1
 誤差の変数は16個で,誤差の平方和計算には,(誤差)=(個々の値)-(小ブロックの平均)で4個の平均を使うから,誤差の自由度は16-4=12
 全体の変数は16個で,全体の平方和は,(個々の値)-(全体平均)で全体平均を使うから,全体の自由度は16-1=15
 交互作用の自由度は,全体から差し引いても求められるが,(教科の自由度)×(組別の自由度)=1という説明が普通

vi) 教科の主効果,組別の主効果,交互作用の効果,誤差の各々について平方和÷自由度により不偏分散を求める.

vii) 教科の主効果,組別の主効果,交互作用の効果の各々について誤差の不偏分散との比を求める.(これがF値)

viii) 比較すべき5%F値は
 教科の主効果では
=FINV(0.05, 教科の自由度 1, 誤差の自由度 12) = 4.75 ここで0.85<4.75により教科の主効果は有意差なし.
または,
p値を =FDIST(F値0.85, 教科の自由度 1, 誤差の自由度 12) で求めて 0.37>0.05により有意差なし.

 組別の主効果では
=FINV(0.05, 組別の自由度 1, 誤差の自由度 12) =4.75 ここで0.39<4.75により教科の主効果は有意差なし.
または,
p値を =FDIST(F値0.39, 組別の自由度 1, 誤差の自由度 12) で求めて 0.55>0.05により有意差なし.

 交互作用の効果では
=FINV(0.05, 交互作用の自由度 1, 誤差の自由度 12) = 4.75 ここで10.14>4.75により交互作用の効果は有意差あり.
または,
p値を =FDIST(F値10.14, 交互作用の自由度 1, 誤差の自由度 12) で求めて 0.01<0.05により有意差あり.
表7
  A B C
1 教科 1組 2組
2 英語 56.4 55.1
3   52.3 53.4
4   50.2 63.2
5   45.2 56.3
6 数学 58.6 50.6
7   67.8 55.3
8   60.2 45.8
9   55.8 55.2
表8
  E F G H
1 平均 1組 2組
2 英語 51.03 57.00 54.01
3 数学 60.60 51.73 56.16
4 55.81 54.36 55.09
表9
  A B C
11 小ブロックの平均-全平均 1組 2組
12 英語 -4.06 1.91
13   -4.06 1.91
14   -4.06 1.91
15   -4.06 1.91
16 数学 5.51 -3.36
17   5.51 -3.36
18   5.51 -3.36
19   5.51 -3.36
表10
  A B C
21 組の主効果 1組 2組
22 英語 0.73 -0.72
23   0.73 -0.72
24   0.73 -0.72
25   0.73 -0.72
26 数学 0.73 -0.72
27   0.73 -0.72
28   0.73 -0.72
29   0.73 -0.72
表11
  A B C
31 教科の主効果 1組 2組
32 英語 -1.08 -1.08
33   -1.08 -1.08
34   -1.08 -1.08
35   -1.08 -1.08
36 数学 1.08 1.08
37   1.08 1.08
38   1.08 1.08
39   1.08 1.08
表12
  A B C
41 交互作用
の効果
1組 2組
42 英語 -3.71 3.71
43   -3.71 3.71
44   -3.71 3.71
45   -3.71 3.71
46 数学 3.71 -3.71
47   3.71 -3.71
48   3.71 -3.71
49   3.71 -3.71
表13        
  A B C
51 誤差 1組 2組
52 英語 5.38 -1.90
53   1.28 -3.60
54   -0.82 6.20
55   -5.82 -0.70
56 数学 -2.00 -1.12
57   7.20 3.58
58   -0.40 -5.93
59   -4.80 3.48
表14
  A B C D E F G
61 分散分析表 平方和 自由度 不偏分散 分散比 5%F値 p値
62 教科の主効果 18.49 1 18.49 0.85 4.75 0.37
63 組別の主効果 8.41 1 8.41 0.39 4.75 0.55
64 交互作用の効果 220.52 1 220.52 10.14 4.75 0.01
65 誤差 260.90 12 21.74      
66 全体 508.32 15        
○ 分析ツールを用いるとき:(実務向き)
 ※ 標本数が異なるとき(空欄を含むとき)不可
 ※ Excelの分析ツールで繰り返しのある二元配置法を行うには,右の表15のように繰り返しのデータが列方向に(何行分という形で)並ぶ必要があります.

ツール→分散ツール→分散分析:繰り返しのある二元配置
入力範囲:A1:C9(左欄のラベル,上欄のラベルとも入れる)
1標本当りの行数:4
α:0.05

 右の表16のように出力される(小数点以下の桁数はもう少し多い).
 上記の「定義に従った計算」は,この出力形式にほぼ対応させたものである.
表15
  A B C
1 教科 1組 2組
2 英語 56.4 55.1
3   52.3 53.4
4   50.2 63.2
5   45.2 56.3
6 数学 58.6 50.6
7   67.8 55.3
8   60.2 45.8
9   55.8 55.2
表16
分散分析 : 繰り返しのある二元配置  (※表の上の部分は省略)    
             
分散分析表            
変動要因 変動 自由度 分散 観測された分散比 P-値 F 境界値
標本 18.49 1 18.49 0.85 0.37 4.75
8.41 1 8.41 0.39 0.55 4.75
交互作用 220.52 1 220.52 10.14 0.01 4.75
繰り返し誤差 260.89 12 21.74      
             
合計 508.32 15        
※ 分散分析について,分かりやすい記述のある書物
  • 「統計処理に使うExcel活用法」(相澤裕介著/カットシステム)
  • 「図解で分かる統計解析」(前野昌弘,三國彰著/日本実業出版社)
  • 「よく分かる統計解析の基本と仕組み」(山口和範著/秀和システム)

■例と答 上の表15などは,ドラッグ → コピー → Excelに貼り付け で,そのまま使えるので,実際に確かめることができる.

○=== メニューに戻る

◇このページの内容について,考え方の間違い,計算間違い,著作権上の
問題点などお気づきの点がございましたら までご連絡ください.