多重共線性の問題について

多重共線性とは?

回帰分析において複数の説明変数(独立変数)があり、その変数間で線形関係(強い相関)が認められる場合、共線性があるといい、共線性が複数認められる場合を多重共線性があるといいます。

例えば、ある集団の収入を予測するモデルに「年齢」と「経験年数」を説明変数として含めた場合を考えます。年齢が上がるにつれて一般的に経験年数も増加します。そのため、「年齢」と「経験年数」は高い相関を持つことがよくあります。この場合、「年齢」と「経験年数」に共線性を認めます。

この共線性が多変量解析で複数起きている状態を、多重共線性が生じている状態といいます。

多重共線性の問題点

(1)回帰係数の不安定性
多重共線性があると、回帰係数の推定が不安定になり、小さなデータの変動によって係数が大きく変動します。この不安定性は以下のような問題を引き起こします。

βエラーの増加:実際には関連のある変数が統計的に有意とならない(タイプIIエラー)可能性が増加します。
解釈の困難性:係数の値が不安定であるため、各説明変数の影響を正確に解釈するのが困難になります。
(2)モデルの予測精度の低下
多重共線性により、モデルの予測精度が低下することがあります。特に、新しいデータに対する予測が不正確になる可能性が高くなります。

先ほどの「年齢」と「経験年数」の場合、この二つは強く相関しますので、どちらが収入に対してより大きな影響を与えているのかを特定するのが難しくなり、結果として、回帰分析の精度が低下します。

別の例として、「水難事故の発生」を決める因子を見つけるために、多変量解析をする場合を考えます。説明変数の中に「気温」と「アイスの売上」が含まれているとします。この二つはお互いに強く相関すると思いますので、共線性を認めます。「気温」は「水難事故の発生」を決める因子に含まれそうですが、「アイスの売上」は「水難事故の発生」に直接は関連しないと思います。ですが「気温」と相関する「アイスの売上」は「水難事故の発生」と偽相関してしまいます。結果として、どちらが「水難事故の発生」を決める因子なのか計算上は分からなくなります。

多重共線性の判断方法

分散拡大係数(Variance Inflation Factor: VIF)
VIFは、多重共線性の程度を定量的に評価する指標です。具体的には、各説明変数が他の説明変数とどの程度相関しているかを示します。VIFの解釈は、
VIFが1に近い:多重共線性の問題はほとんどない。
VIFが10以上:多重共線性が強く存在する可能性が高い。VIFの正確な基準値は決まっていませんが、よく言われる基準は、「10」です。

なお、VIFが「3」を超えた時点ですでに結果は多少歪み始めていると考えられます。また、VIFが「5」を超えるとそれなりに結果が歪んでいる可能性があるので、最低でもVIFが5以下が無難と考えられます。

多重共線性の問題に対する対処法

(1)変数の削減:高い相関を持つ変数のうち、1つを削除することで多重共線性を軽減できます。どれを残し、どれを削除するかは科学的な意義を考えて実施するのが良いです。
(2)主成分分析:相関の高い変数をまとめて、新しい変数に変換することで、多重共線性を緩和できます。しかし、新しい変数の解釈には注意が必要です。
(3)正則化手法(リッジ回帰など):モデルにペナルティを加えることで、回帰係数の不安定性を抑制します。

まとめ

  • 多重共線性とは、説明変数の間に強い相関がみられること。
  • 多重共線性があると、βエラーの増加など、間違った分析結果になる。
  • 多重共線性の判定には、VIFを用いる。
  • VIFの基準は一般的には10だが、5以下が理想である。
  • 多重共線性がある場合は、相関する変数のどちらかを削除する。

多重共線性は、回帰分析の解釈や予測に悪影響を与える重要な問題です。βエラーの増加やモデルの予測精度低下を招くため、VIFを活用してその存在を早期に確認し、適切な対策を講じることが重要です。多重共線性を適切に管理することで、より信頼性の高いモデルを構築できます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA