以前、『日本語教育』『社会言語科学』『世界の日本語教育』などの日本語教育関連の雑誌を対象に、どのような統計手法が多く使用されているか調べたことがあります。もっとも多く使用されていたのがt検定でした。t検定とは、2つの母集団の平均値の間に有意な差があるかどうかを調べるものです。今回は、このt検定について日頃感じることをまとめてみました。, t検定のような統計的推測という統計手法は、母集団から抽出したサンプルデータに基づいて、母集団に関して差があるか否かを計算するものです。ですから、データが母集団の全データを扱うときには、この統計的推測の手法は使用しません。しかし、全データを扱っているにもかかわらず統計的推測法を用いた結果を掲載している論文を見ることがあります。そこで、先ずは、どういう場合に統計的推測を行うか、島田・野口(2017:vi)を以下に引用します。, 緑色のりんごと赤いりんご、それぞれ1箱ずつあるとします。それぞれの箱には20個のりんごが入っています。緑色のりんごと赤いりんごは大きさに差がないと聞いていたのですが、緑色のりんごの箱と赤いりんごの箱から1個ずつりんごを取り出したら赤いりんごのほうが大きかったらどう思いますか。20個のうちの1個を比べただけですから「偶然かな」と思うのではないでしょうか。つまり、「本当は差がないけれど、たまたま選んだ赤いりんごが大きかったのだろう」と考えると思います。次に、両方の箱から5個ずつ取ったら、すべて赤いほうが大きかった場合はどうでしょう。「大きさに差がない」という前提が間違っていたのではないかと考えるのではないでしょうか。統計分析では、このように、得られた一部のサンプルデータ(この場合、たまたま箱から取り出したりんご)をもとに計算を行い、母集団(この場合、箱に入っている緑色のりんご20個と赤いりんご20個)において「差がない」という前提(統計分析で「仮説」と言います)が正しいかどうかを推定します。, このように、全データの情報が得られていない場合、統計手法を用いて、サンプルデータから全データについて推測できるのです。ですから、もし対象としているデータが母集団の全データであったら統計的推測は行いません。, 20年ほど前、島田と野口は日本語教育学会の試験分析委員会の委員で、日本語能力試験の実施結果に関する分析を行っていました。そのころ日本語能力試験がスタートして10年の節目を迎え、過去10年の問題の分析を行うことになりました。島田は聴解類を担当し、談話や選択枝の特徴が結果に影響を及ぼしているかを分析しました。談話形式がモノローグかダイアローグかによって正答率の平均値に差があるかを調べるために、t検定を用いようとしたところ、「全データを分析しているのだからt検定をする必要がないし、してはいけない」と野口から指摘されました。確かに、母集団は日本語能力試験の聴解類の問題で、実際に扱っているデータは過去問題すべてでしたから、「母集団に関する推定」をする必要はなかったのです。そのころ、島田は、正しく「母集団の推定」の意味を理解していませんでした。野口の指摘がなかったら、危うく誤った分析を世に公表しているところでした。, 母集団の全データが分析対象となっている場合は、推測統計の手法を用いずに、統計的記述の方法で分析します。統計的記述の方法というのは、この場合は、平均値、標準偏差、相関係数などを示すということになります。上記のt検定のほか、たとえば、Aという教科書とBという教科書で一人称の使われ方に違いがあるかカイ二乗検定を行うという場合、Aという教科書とBという教科書の全ての文を対象としているのでしたら、推測統計の手法(この場合、カイ二乗検定)を用いず、統計的記述の方法を用います。なお、統計的推測の方法が統計的記述の方法より優れているとかレベルが高いなどということはありません。統計的な分析で何を見たいのか目的に応じて決まるのです。, ところで、上記に「選択枝」と書きました。通常は「選択肢」と表記された文章を見ることが多いと思いますが、日本語能力試験をはじめ複数の試験では「選択枝」と表記されます。日本テスト学会が2007年に出版した『テスト・スタンダード—日本のテストの将来に向けて』で「選択枝」が採用されているため、テストに関する専門用語としては「選択枝」を用いるということなのだと思います。同書によると、「肢」という身体用語を避けたいということ、英語で設問部分をstem(幹)、選択肢をbranch(枝)ということから、「選択枝」を採用する理由が記載されています(p.18)。私どももこれにしたがって「選択枝」を用いています。, t検定は、冒頭に述べたとおり、2変量の間の平均値の差を検討する統計手法です。例えば、文法テストについて、中国語母語話者と韓国語母語話者とタイ語母語話者の平均値の間に差があるか否かを見たい場合、「中国語母語話者」と「韓国語母語話者」の間で検定、「韓国語母語話者」と「タイ語母語話者」の間で検定、「タイ語母語話者」と「中国語母語話者」の間で検定、というように、繰り返してt検定を行うことはできません。この例のように3つの母集団の間を検討したい場合は、分散分析法を利用します。このことは、t検定を解説する書籍には必ず書いてあることですが、t検定を3つの母集団間で繰り返し実施するという誤った使い方をしている論文を見かけることがあります。, ① まず、「中国語母語話者」と「韓国語母語話者」という2つの母集団の場合を考えましょう。この場合の検定仮説は次のようになります。, 有意水準を5%に設定した場合、有意確率5%以下だとこの仮説は棄却されます(「両者の母平均の間には差がある」という結果になります)。逆に、棄却されない(仮説を採択する)確率は95%になります。, 仮説:「中国語母語話者」と「韓国語母語話者」の母平均の間には差がない。 なぜt検定を繰り返してはいけないのか 投稿日2017.2.24 修正日2017.7.9.           かつ           かつ 「タイ語母語話者」と「中国語母語話者」の母平均の間には差がない。, つまり、3つの母集団の場合の検定仮説は、すべての組み合わせで「差がない」ということです。この仮説を棄却するには、3つの組み合わせのうち少なくとも1つの組み合わせで「差がある」と判断されればいいのです。ここまでで、3つの母集団の方が「差がある」と判断されやすいということがわかると思います。, ③ 最後に、3つの母集団の場合が2つの母集団の場合に比べて、具体的にどのぐらい「差がある」と判断されやすいのか考えてみましょう。5%水準の場合、仮説が棄却されない確率は、「中国語母語話者」と「韓国語母語話者」という2つの母集団については上記のとおり0.95(95%)です。, 3つの母集団の場合は、仮説が棄却されない確率は、「中国語母語話者」と「韓国語母語話者」の間について0.95(95%)、「韓国語母語話者」と「タイ語母語話者」の間についても0.95(95%)、「タイ語母語話者」と「中国語母語話者」の間についても0.95(95%)です。これらすべてにおいて棄却されない確率は、「0.95×0.95×0.95」、つまり0.857ということになります。そして、棄却される確率は、「1-0.857」で、0.143となります。最初は有意水準0.05(5%)で考えていたのに、3つのうち少なくとも1つの組み合わせで棄却される確率は0.143(14.3%)になってしまうのです。ずいぶん棄却されやすくなるということです。ですから、3つの母集団のときは、t検定ではなく、分散分析法を使用する必要があります。あるいは、水準を厳しくして、t検定を繰り返し実施する例を見ることもあります。, t検定は、平均値の差の検定ですが、t値は標準偏差(分散)の大きさも影響します。そのため、必ず標準偏差も報告しなければいけないのですが、残念ながら標準偏差が報告されていない論文が非常に多いです。表に書き込むときは、下の表1のように、平均値を示し、標準偏差は(  )に書くことが多いです。しかし、そのことを知らない読者もいますから、必ず、表1のように「(  )内は標準偏差を示す」ということを明記する必要があります。, また、グラフで平均値を示し、標準偏差を示していない場合もありますが、やはり、必ず標準偏差を示さなければいけません。なかには、グラフに平均値がはっきり明記されていない図1のような例もあります。図1は、聴解テストの問題の内容別に、英語母語話者と中国語母語話者の得点の平均値を示したものです。連載の初回に書きましたが、このような図は平均値を示すにはふさわしくありません(理由は第1回「そのグラフ、大丈夫ですか」をご覧ください)。しかし、平均値を示すのにこのようなグラフを用いる論文が非常に多いのも事実です。図1の場合は、おおよその平均値はわかりますが、正確な平均値、そして標準偏差の情報が書かれていません。著者はグラフで示しているのでわかりやすいと考えているのかもしれませんが、t検定に必要な平均値と標準偏差は明記されなくてはいけません。, 統計手法が用いられている論文を読むと、大事な情報が書かれていない例をたびたび見ます。, 例えば、図1のグラフを示し、結果(t検定の結果)については次のような記述が書かれていたとしたらどうでしょう。, 「情報把握」「比較理解」「推測」は両者の間で有意差は見られなかったが、「主旨理解」に関しては英語母語話者の方が中国語母語話者より有意に平均値が高かった(t(52)=3.50, p<.01)。, この記述では、有意差が観察された「主旨理解」についてはt値などが報告されていますが、差がなかった他の問題については「有意差は見られなかった」ですまされています。「有意差が見られなかった」のも結果ですから、これらも含めて、すべてのt検定の結果を示さなくてはいけません。, ところで、t検定には、等分散が仮定されるという条件があります。次の例を見てください。, 2つのグループの得点を比較したところ、等分散ではないことがわかったため、ウェルチのt検定を行った。, この例では、等分散であるかを確認していることがわかります。しかし、その結果を導いた方法や数値が提示されていません。「等分散ではない」ということの根拠を示す必要があります。, 対応のないt検定は、平均値、標準偏差がわかっていれば計算できます。そのため、自分が収集したデータと先行研究のデータ(平均値と標準偏差)を使い、母平均に差があるかt検定を行うことを考える人がいます。例えば、5年前の先行研究で、英語母語話者を対象に行った日本語に関する自己評価得点の結果(人数と平均値と標準偏差)がわかっています。自分はベトナム語母語話者を対象に同様の調査を行ったので、英語母語話者グループとベトナム語母語話者グループの母平均の間に差があるか検討するというような例です。この場合、有意差があったとしても、母語の違いだけではなく、5年という時期の違い、学習環境、学習方法、年齢、そして何よりも2つの調査の目的や実施方法などの諸条件や拠って立つ理論的基盤の違いなどが影響している可能性を否定できません。つまり、仮説を検証することは難しいと言えます。これは極端な例ですが、先行研究ではなく自分で収集したデータを使用する場合でも、知りたい要因(例えば母語の違い、日本語能力レベルの違いなど)以外に、結果に影響を及ぼす要素がないかよく考える必要があります。, 今回は、t検定の結果を報告する論文を読んでいて気づいたことを書きました。まとめると次のようになります。, 島田めぐみ・野口裕之(2017)『日本語教育のためのはじめての統計分析』ひつじ書房 t検定を行って、そこで、t値というものが出てきますが。t=-0.4とか、t=0.2とかいろいろ出てきますが、この数値の単位はなんですか?%とか?おそらく、ある母集団に対しての数値かと思いますが、t値が大きければ大きいほど な意味がある TukeyHSD ( aov (y ~ x) , ordered = TRUE )Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered, $x    diff      lwr    upr          p adjB-A   1   -4.2294189    6.229419   0.9252929C-A   3   -2.2294189    8.229419   0.3245304D-A   5   -0.2294189  10.229419   0.0609499C-B   2   -3.2294189    7.229419   0.6297636D-B   4   -1.2294189    9.229419   0.1441838D-C   2   -3.2294189    7.229419   0.6297636, A、B、Cを比較する場合は、単純に多重比較と決めつけてしまうのではなく、求めようとすることを明確にすることが大切です。例えば、「A>BかつA>B」を証明するための研究計画であれば、AvsBとAvsBのt検定を行い、両方ともに有意差が言えればよいということになります。, 参考 http://www.gen-info.osaka-u.ac.jp/MEPHAS/ave.html2種類の既存薬AとBを組み合わせた配合薬Cの配合効果を評価する場合.この場合、既存薬A,Bのそれぞれの効果と配合薬Cの効果を比較します.ここで いいたいのはCが既存薬A、Bの両方よりも効果があるということです.「CがAよ りも優れている、かつCがBよりも優れている」ということを 示します.つまり帰無仮説はC=AかつC=Bとなり、A=B=Cとは異なります.このような場合には2標本t検定を繰り返して用いるほうが適切だと考えられます., yoshida931さんは、はてなブログを使っています。あなたもはてなブログをはじめてみませんか?, Powered by Hatena Blog なぜt検定を繰り返してはいけないのか投稿日2017.2.24修正日2017.7.9, A<-c(12,14,16)B<-c(13,15,17)C<-c(15,17,19)D<-c(17,19,21), x<-c(rep("A",3),rep("B",3),rep("C",3),rep("D",3))y<-c(A,B,C,D)stripchart(y~x,vertical=T,pch=1,cex=2,cex.axis=1.5), 視覚的にはAD間、BD間には差があるように見えます以下、重要な前提ですAの母平均をμaBの母平均をμbCの母平均をμcDの母平均をμd とします「μa=μb=μc=μd」を検定する場合にt検定を繰り返してはいけないのです., oneway.test(y~x,var.equal = T)#F = 3.6875, num df = 3, denom df = 8, p-value = 0.06214#有意水準5%で差が「ない」という結果になりました#全ての群の母分散は等しいと仮定してt検定を繰り返してみますAB<- t.test ( A , B , paired=FALSE , var.equal=T , conf.level=0.95 )AC<- t.test ( A , C , paired=FALSE , var.equal=T , conf.level=0.95 )AD<- t.test ( A , D , paired=FALSE , var.equal=T , conf.level=0.95 )BC<- t.test ( B , C , paired=FALSE , var.equal=T , conf.level=0.95 )BD<- t.test ( B , D , paired=FALSE , var.equal=T , conf.level=0.95 )CD<- t.test ( C , D , paired=FALSE , var.equal=T , conf.level=0.95 )#それぞれの検定結果のP値のみを取り出してみますstr ( AB [ [3] ] ) ; str ( AC [ [3] ] ) ; str ( AD [ [3] ] ) ; str ( BC [ [3] ] ) ; str ( BD [ [3] ] ) ; str ( CD [ [3] ] )AB 0.573AC 0.14AD 0.0376BC 0.288BD 0.0705CD 0.288やはりAD間には有意水準5%で「差がある」という結果になりました.しかし分散分析では差がないという結果でした.分散分析の帰無仮説有意水準0.5において「μa=μb=μc=μd」である., t検定の帰無仮説有意水準0.5において「μa=μb」かつ「μa =μc」かつ「μa =μd」かつ「μb=μc」かつ「μb=μd」かつ「μc=μd」である.言いかえれば、有意水準0.5で「6組全てに差が見られない」となり、対立仮説は「少なくとも一組には差がある」となります.. とはっきり示してくれるからです。多くの判断を求められるビジネスパーソンであればある程、決断の補助となり得る検定というツールは手放せないものではないでしょうか。, 検定を実施する前に、検出力を確保するためのサンプルサイズ選定が必要ですし、正規性の確認が必要だったりします。, しかしこのくじを引いた人一人に注目した場合、この人は5%の確率で引き当てたことになります。, このように20人全体に注目していたのに、結果が決まった(引き当てた)後にそのたった一人の結果に注目すると結果に対して誤解が生じてしまいます。, 有意水準5%の仮説検定を20種の帰無仮説に対して行った場合、少なくとも一つの帰無仮説が棄却される確率は64%以上となります。, を積み重ねると、全体としては『どれか一つは確実に間違っている』となってもおかしくないという事です。, 『F検定で分散の有意差の有無を確認した後に、t検定かwelchのt検定を実施する』, と全体の第1種の過誤が9.8%になってしまいます。有意水準5%を判定の基準としていたのですから、検定の前提条件が崩れているのです。, $$t=\frac{x_1-x_2}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}}$$, $$自由度=\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}÷[\frac{(\frac{σ_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{σ_2^2}{n_2})^2}{n_2-1}]$$, 手計算の場合は面倒くさそうですが、エクセルの分析ツールでは分析対象をドラッグして簡単に実施することが可能です。, ただ何としても分散と平均の両方の有意差を調べたいというシチュエーションは、当然あると思います。, この検定の多重性で問題になるのは、全体で見た場合の有意水準が大きくなりすぎることにあります。, なので発想としては、全体の有意水準が5%になるように個々の有意水準を小さくすれば良いという事になります。, μ1=μ2 μ2=μ3のように、帰無仮説が2つある場合はそれぞれの検定をα/2で行うという事になります。, 5%の場合は5/2=2.5%になります。もちろん両側規格の際は更に1/2にします。, 帰無仮説が10個の場合、0.05/10=0.005(0.5%)と個々の有意水準は0.5%とかなり小さくなってしまいます。, これを解決する変形版の手法や、そもそも対象のシチュエーションごとに最適な設定がされた多重比較法というものがあります。, ただもし分散の有意差と平均の有意差が知りたい場合は、ボンフェローニ法で有意水準を調整したうえで実施すれば、問題なく検定が出来るはずです(この場合はα/2)。, この検定の多重性は、検定を学び始めたときに犯してしまいがちな間違いの代表格だと思います。, 特にF検定を実施して、t検定を実施するというフローが普通に教科書に乗っていたりするので中々未然防止が難しいです。, ちなみにこれから統計学を学習をするというのであれば、ラーニングピラミッドというものを意識すると効率的です。, 私自身、インプットだけでなく、youtubeや職場でアウトプットしながら活用する事で統計リテラシーを日々向上させていっています。, ぜひ、アナタも当ブログやyoutubeチャンネルで統計リテラシーを上げて、どこでも通用するビジネスパーソンになりましょう, カイ二乗分布は統計学を学んでいると、必ず突き当たる大きな壁だと思います。苦手意識を持ってしまうと厄介ですので、一緒に勉強して使いこなしてやりましょう。, 仮説検定は統計学の中で非常に重要な考え方です。ですが、慣れない思考法なので忌避されがちです。今回はその「考え方」について解説していきます。. 仮説検定を行う場合は有意水準を設けます.有意水準はαエラー,いわゆる第1種の過誤を犯す確率(帰無仮説が正しいのに棄却してしまう確率)で,5% (0.05) が採用されることが多いです.帰無仮説が正しいのに棄却してしまう確率が5%よりも少ないならば,それは偶然の結果ではないと考えて良いので … sample は「石村卓夫;分散分析のはなし,東京図書,1992,p137」 大学院生を対象にした統計分析の授業で、「有意差が出なくても、想定していたのと違う結果でも、それが結果ですから、それを受け入れましょう。」と口をすっぱくして言います。そのときは、学生もうんうんとうなずきます。ところが、実際に自分たちでデータを収集して分析をする演習の段になると、この言葉はすっかり忘れられてしまうようで、分析した結果、有意差が得られなかった学生は肩を落としてがっかりします。また、修士論文を執筆している学生からは、「t検定をしましたが、有意差が … このことは、t検定を解説する書籍には必ず書いてあることですが、t検定を3つの母集団間で繰り返し実施するという誤った使い方をしている論文を見かけることがあります。 では、なぜt検定を繰り返してはいけないのでしょう。少し丁寧に解説していきます。