T. は じ め に
現在の日本の臨床医学に関する,医師の方々が研究調査し発表される結果をみて,本当に統計学的分析方法の重要性を理解していただけているのであろうかと思う。妥当かどうか確認しないまま,得られたデータに対し代表的な統計方法によって分析し,そして有意な結果が得られれば論文作成へと考えておられる方も多いような気がする。
まず,表1は多少古くはあるが参考文献から引用した1979年の調査結果である。つまり医学論文に使われている統計手法の日米比較調査結果を表している。日米双方の代表的な週間医学雑誌の中から,“New
England Journal of Medicine" と「医学のあゆみ」を選択し,米国については “Original
Articles" 150題,日本については「あゆみ」と「短報」を合わせた357題について調査した結果である。この2つの雑誌の特色の違いを考えても,表に示された数から何を感じ取れるだろう。
“New England Journal of Medicine" ではそれぞれ分散分析にしろ,生存曲線分析など数々の多変量解析を行われているのに対し,「医学のあゆみ」で発表されている内容は,t検定,単回帰,スタンダードなカイ2乗検定でほとんどを占めている。“New
England Journal of Medicine" では,この代表的な3つの方法で報告されている割合は実に49.1%と半分以下しか占めていない。
それに “New England Journal of Medicine" では問題の種類によって適切な統計学的手法が選択され調査されているという点は注目すべきことであろう。もちろん,使用される統計手法の数が増えればそれだけ誤用が増加するわけではあるが,この表でみられる日本医学の現状はそれ以前の状態であるといえる。
このように一昔前はほとんどがt検定で済まされていた。しかし,その後,欧米の一流ジャーナルに統計学の専門家がレフリーとして参加するようになり,論文で行われている統計解析が適切であるか否かを評価するようになった。
U. 1998年における日米欧の薬理学論文の比較
ここで表2を挙げる。これは1998年に調査されたデータである。これは日米欧の代表的な薬理学雑誌であるJapanese Journal
of Pharmacology(134報),European Journal of Pharmacology(196報)とThe
Journal of Pharmacology and Experimental Therapeutics(165報)の計495報について,どのような統計手法が用いられているかを表している。
まずJapanese Journal of Pharmacologyをみて,表1と大きく違ってきているものがある。それは多重比較法についてDunnett,Tukey,Bonferroni法などが多く使用されていることがわかる。そして,古典的な統計解析以外で他のジャーナルと比べても同じくらいの頻度で使われているのが多重比較法であるといえる。
表3は著者が独自に日本リウマチ学会誌「リウマチ」に載せられている論文中の解析方法について集計した結果である。2年間の学会誌で統計解析のそれぞれの手法をカウントしている訳であるが,2群間の差の検定についてはt検定以外にもさまざまな方法が使われており,この分野ではその理解が深いと思われた。しかし,多重比較法についてはほとんど行われていないことがわかる。また,生存時間分析でカウントされているKaplan-Meier生存曲線,ログランク検定,Cox回帰分析の1つずつはすべて同じ論文で使われている手法のため,生存時間分析で使われている手法の論文数の合計はカウント1と考えてよい。
日本で多く使われている傾向にある多重比較法が,当学会誌ではあまり使われていないのは,多重比較法の重要性があまり理解されていないからではないだろうか。
V. 多重性と多重比較
多重比較について簡単に説明しよう。
検定の多重性について説明する。2群の差の検定のためにt検定を使うことが多いが,これがもし3群以上の群間について同時に検定する場合,それぞれそのままt検定を行うのみでよいのであろうか。比較を1回しか行わないならば問題はないのだが,その研究の中で複数の検定を同時に行う場合,3群の間で3回の比較を同時に行うと1回の比較あたりの有意水準を5%としても,実際には3回の比較を行っているので,3回の比較全体で,偶然に有意差が出る確率は5%よりもかなり大きくなってしまうのである。これは第一種の誤り(TypeT
error)の増加という現象である。検定の多重性とは,このように複数の検定を同時に行うことによって,偶然によって有意になる確率が大きくなる現象をいう。
多重性を抑える対処としては,検定の数を減らす,検定に優先順位を付ける,分散分析を先に行うことによって有意水準をコントロールする,などが考えられる。
それ以外の解決方法として,一つのデータに対して複数の比較を同時に行うとき,比較の組み全体を1つの解析とみなして,比較全体の誤って有意とする確率を有意水準以下に抑える手法があるが,これを多重比較という。
多重比較はさまざまな方法が考えられていて,ある対照群と他のすべての群を比較する場合の多重比較法にDunnett検定がある。Dunnett検定では,同時に比較を行う多重性を考慮して棄却限界値を計算するので,当然t検定の場合と比べて棄却限界値は大きく,有意になりにくくなる。
また,Dunnett検定では,ある対照群と他のすべての群との比較について考えているが,すべての群間での比較を同時に考える場合,Tukey検定がある。Tukey検定で用いられる棄却限界値はDunnett検定よりもさらに厳しい値となり当然,有意になる確率はさらに減少することになる。
この2つのDunnettとTukeyが単純な多重比較を考える上で有名な手法として挙げられる。
他にも表2で示されているように論文でよく使われる多重比較として,Bonferroni,Scheffeの方法などがある。
対照群と他の用量群の比較をする場合,例数のバランスが取れていればDunnett,そうでなければScheffe法がよく使われる訳である。ただし,Scheffe法は過度に保守的な検定方法のため,有意差が得られづらいということである。つまり第一種の誤りは小さく抑えられるかもしれないが,本来ある差を見逃してしまう第二種の誤りが高くなってしまう。
1,2例の違いはよほど例数が少なくないかぎりは問題ないので,そのような場合はScheffe法でなくともDunnett法を使えばよい。
またDunnett法を使っても得られる結果の解釈が難しい場合がある。たとえば,対照群とその他の群,低用量群,中用量群,高用量群を調べるとしてなぜか中用量群との検定のみ有意差が検出されたという場合などである。つまり中用量群で有意な差が認められたならば当然,高用量群でも有意差が検出されてほしいと思うわけだが,Dunnett法では用量と反応間の単調性を仮定しないため,このようなことが起こる。
対照群と比較する用量群それぞれに順序関係がない場合,Dunnett法を使っても何の問題もない。しかし,順序関係があると考えられる場合,つまり用量の単調性が仮定できる場合は,Williams検定が適用できる。しかも単調性を仮定するためにDunnett法よりもかなり検出力が高く(有意になりやすく)なる。
今までDunnett,Tukey,Williamsなどパラメトリックな多重比較法を紹介したが,これらそれぞれに対してノンパラメトリックな多重比較法が基本的にはすべて用意されている。
このように説明していくと,かなりたくさんの多重比較法がある。t検定を使って,調査,研究されようとしている方は必ず多重比較について考えてほしい。多重性を無視して,検出されたからといってそれを報告すると,多重性の有無を指摘されることになるだろう。
W. 多重比較を行う上での注意点
次に多重比較の方法が適切でない場合を挙げたい。
まずはカテゴリー別に分ける場合,そのカテゴリー分けの方法に恣意性がある場合である。つまりカテゴリーの分け方によって,研究者の都合のよいように結果を誘導することが可能になってしまう。基本的にはカテゴリーの数を増やせば,多重比較の方法は有意になりにくくなるし,少なくすれば有意になりやすくなる。
次に,本当は量的な観測データを無理にカテゴリー別にする場合である。たとえば,年齢のデータがあった場合,20代以下,30代,40代以上と分けたとすると15歳や29歳でも20代以下というカテゴリーに分類されてしまう。つまりここですでに情報のロスが出てくる。
あとは2つ以上の群に相関関係がある場合である。このような場合は多重比較を行うのではなくて,相関を調べるために相関係数を計算して有意な増加(または減少)傾向があるかを確認する。そしてさらに,必要に応じてその群間の関連をモデル化するために,回帰分析を適用するのが標準的な統計分析となっている。
また多重性以外で,基本的かつ重要な過ちの例として交絡がある。
X. 交 絡
交絡とは何かというとよく例えられるものであるが,「血圧が高い人は給料が高い」という仮説を立てて有意な差を検出できたとしよう。もしこれが真実であるならば,血圧を高めるために塩分をより多く摂取すれば給料が高くなることが期待できる,などという理解しがたい解釈になる。
どうして血圧と給料に正の相関が生じたのであろうか。この見かけ上の関連のことを交絡という。
この例で説明していくと,日本では年功序列社会が根強いため,基本的に年齢が高ければ給料も増加する訳である。また年齢が高くなれば,血圧も高くなるというのも医学的な事実である。したがって,年齢が高い人は血圧も給料も高くなり,血圧と給料に見かけ上の正の相関が生じてしまう。このように2つの変数以外に他の変数(要因)がその2つの変数両方に関連しているため,見かけ上の関連を生じさせる現象を交絡といい,その要因となっている変数のことを交絡因子などと呼ぶ。
このような交絡に対する対処のひとつとしてよく行われるのは,層別化がある。先の例でいうと,年齢が交絡因子なのであるから年齢別に分けて,それぞれに対して比較を行うという方法である。年齢別に分ける訳であるから年齢という影響はほぼなくなることになる。しかし層別に分ける場合,それぞれ層別の個数が少なくなると個々の比較というものは信頼性が薄くなり,検出しづらい。そのため全体的な比較が必要となってくる。通常,解析の段階では,この層別と統計的モデルの仮定により,交絡の影響を除いた評価が可能となる。
このような解析方法は最近では非常に一般的であり,その方法らをひっくるめて多変量解析と呼んだりする。詳しくは説明しないが,反応が有無などの二値データであればロジスティック回帰分析を,血圧のような計量値であれば重回帰分析,生存時間のような特殊な切断データの場合は,Coxの比例ハザードモデルを適用したCox回帰分析を,というようにそれぞれ標準的な統計手法となる。
Y. 交 互 作 用
また,交絡と混合しやすい概念として交互作用というものがある。薬などを扱っている人々にとっては相互作用とよく似たものと考えてもらうとわかりやすい。
薬の例で説明するとAという薬の効用を評価したいのだが,実は薬Aの効果が薬Bを使用しているか否かで変化してしまう場合をいう。
このような交互作用に関しても回帰分析では薬Aと薬Bの交互作用を考えた新たなパラメータを仮定して,評価することが可能である。とくに多変量解析においてはこの交互作用を考えることは非常に重要な研究テーマであり,私は原爆の被曝における曝露線量と喫煙における癌の発生を評価したが,この線量と喫煙量については,無視できない有意な差を検出することができた。また線量と喫煙量の交互作用を調べることによって,その変量間が有意な差がみられない場合は相加的効果である,正の有意な差が検出されれば相乗的な効果を,負の有意な差が検出されれば相反的な効果を認めることができる。
交絡や交互作用について統計的に評価することは研究の質を高めるものとなるであろう。
Z. これからの遺伝統計学
最後に回帰分析の話が出てきたので,私が今携わっている遺伝統計学の分野について触れたい。私は今年の4月から東京女子医科大学膠原病リウマチ痛風センター内の遺伝統計学研究室に出入りさせていただいているのだが,最近急激に注目を浴びているゲノム統計学を勉強している。私は統計家なので,遺伝学の分野の調査データというものを解析するのに多彩な統計分析方法が使われていることに驚愕した。しかし,もともと統計学というのは,遺伝学者が生物実験などのデータが物理実験のように正確に数値が得られる訳ではないので,仮説を証明したいために考え生み出されたものであるということを知った。日本ではとくに大学などに統計学科というものが存在しないため,統計学が日本に導入された時期に統計学と遺伝学が切り離されて使われてしまっているという話であった。
遺伝統計学というものは新しい分野のようにみえて実は本来ある姿となって日本でも認知されるようになり,そして現代の遺伝統計学というものは,データも手法も計算も昔とは比べ物にならないほど進化,深化していると思われる。また,日本リウマチ学会誌をみていても,ゲノム関係の研究報告を多々発見することができた。リウマチ痛風の分野においてもさらにゲノム統計学の議論が過熱していくのであろうと感じ
た。
少々話が脱線してしまったが,統計的手法というものは医学においても確実に多様化発展化してきている。魅力的な解析を行うためにも一連の流れに沿った多変量解析をぜひ理解していただきたい。
文 献
1) 丹後俊郎:新版医学への統計学(古川俊之監修),pp7-9,朝倉書店,東京,1983
2) 浜田知久馬:学会・論文発表のための統計学:統計パッケージを誤用しないために.pp10-14,pp96-101,pp107-111,pp125-126,pp130-132,真興交易医書出版部,東京,1999
著者紹介
1995年 東海大学理学部数学科卒業
1997年 同大学大学院理学研究科数学専攻博士課程前期修了
2001年 岡山大学大学院自然科学研究科システム科学専攻博士後期課程修了[博士(理学)]
2001年 社団法人バイオ産業情報化コンソーシアム 特別研究員
2001年 東京女子医科大学膠原病リウマチ痛風センター遺伝統計学研究室 研究生主要研究テーマ:被曝線量と喫煙量に関する特定臓器癌の発生リスクについて,被曝線量に対しての白内障と重度脱毛の関連,胎内被爆者の重度精神遅滞者とIQ値に対しての混合正規分布の適用,罹患同胞対解析におけるMapmaker/sidsの適用
表 1 “New England Journal of Medicine" と「医学のあゆみ」に掲載された論文に使用された統計学的方法の比較(1979年1月〜12月の1年間)(丹後↑1)↑より)
統計学的方法New Engl J Med医学のあゆみ
頻度頻度
2群の差の検定
Student-t検定 53 88
Wilcoxon順位和検定(Mann-Whitney U test) 13 1
Wilcoxon符号付順位和検定 11 1
符号検定 1 0
Kolmogorov-Smirnov検定 1 0
相関係数と回帰分析
Pearsonの相関係数ρとy=a+bx 24 37
Spearman順位和相関係数 6 0
重回帰分析 4 2
分割表に関する検定と推定
通常のχ↑2↑検定 34 7
Fisherの直接確率計算法 13 0
McNemar検定(対応がある場合) 3 0
相対危険度推定のMantel-Haenszel法 6 0
相対危険度推定の他の方法 13 0
分散分析と共分散分析
分散分析 9 0
共分散分析 3 0
多変量分散分析 1 0
生存曲線の問題
生存曲線作成のためのKaplan-Meier法 7 0
生存曲線の差の検定としてのLog-rank検定 5 0
生存曲線の差の検定としての他の方法 2 0
Coxの比例ハザードモデル 3 0
正規性の検定 6 0
多重ロジスティック関数を用いたリスクファクター分析 2 0
その他 6 0
表 2 薬理学の論文で用いられている統計手法↑2)↑
統計手法JPET(n=165)EJP(n=196)JJP(n=134)
2群間比較の方法
Student t test(unpaired) 63 66 63
Student t test(paired) 25 15 19
Welch t test 1 0 4
Mann-Whitney U test 7 21 6
Wilcoxon signed rank test 2 2 6
Fisher exact test 4 6 1
Pearson Chi-square test 2 3 0
Likelihood-ratio Chi-square test 1 0 3
Mantel-Haenszel test 0 1 0
分散分析の手法
1 way ANOVA 58 73 46
2 way ANOVA 27 7 6
3 way ANOVA 3 0 0
Kruskal-Wallis test 5 9 8
Friedman test 1 2 0
ANCOVA 0 3 0
MANOVA 0 1 0
Repeated measures 1 or 2 way 28 17 3
Repeated measures 4-way ANOVA 0 1 0
Repeated measures ANCOVA 0 1 0
Repeated measures MANOVA 0 3 0
Greenhouse-Geiser adjustment 1 0 0
Huynh-Feldt adjustment 1 1 0
多重比較の手法
Dunnett test 11 26 49
Williams test 0 1 0
Tukey test(Tukey-Kramer test) 12 6 5
Bonferroni/Dunn test 11 16 5
Sidak test 1 0 0
Scheffe test 5 9 8
Fisher(P)LSD test 13 8 5
Student-Newman-Keuls test 19 21 1
Duncan test 5 6 10
生存時間解析手法
Kaplan-Meier survival curve 0 1 2
Loglank test 0 1 0
表 3 日本リウマチ学会誌「リウマチ」より(2000―2001)
2001年2000年計
2群間比較の方法
Student t test(unpaired) 3 1 4
Student t test(paired) 1 4 5
Mann-Whitney U test 2 2 4
Wilcoxon signed rank test 1 0 1
Pearson Cgi-square test 3 1 4
Correlation coefficient ρ 1 1 2
分散分析の手法
1 way ANOVA 1 0 1
多重比較の手法 0 0 0
生存時間解析手法
Kaplan-Meier survival curve 1 0 1
Logrank test 1 0 1
Cox regression 1 0 1 |