相関係数の絶対値が1以下の証明(標本相関係数じゃないよ)

相関係数の絶対値は1以下!」って記事を見ると、大抵標本についての相関係数にシュワルツの不等式を適用して「で〜きま〜した〜」と宣っていて、僕はなんとも言えない気持ちになりました。

期待値で定義している場合の相関係数についても同じことが言えることを簡単に備忘録として残しておこうと思います。

本当は機械学習のアウトプットに時間使いたいのに気になってしまったから書くよ。

 


 

まず相関係数を定義します。

$ X$,$ Y$を確率変数として、それぞれ期待値(平均)を$E[X]$, $E[Y]$とします。なお、期待値は適宜$X$,$Y$の同時確率や周辺確率で計算するものとします。

この時相関係数$ \rho_{XY}$は以下で定義されます:

$$ \rho_{XY} = \frac{E[ (X -E[X]) (Y -E[Y]) ]}{ \sqrt{E[(X -E[X])^{2}]} \sqrt{E[(Y -E[Y])^{2}]} } $$

$ X$, $ Y$の分散をそれぞれ$ \mathrm{Var}[X]$, $\mathrm{Var}[Y]$、共分散を$ \mathrm{Co}\mathrm{v}[X, Y]$と書くと

$$ \rho_{XY} = \frac{\mathrm{Co}\mathrm{v}[X, Y]}{ \sqrt{\mathrm{Var}[X]} \sqrt{\mathrm{Var}[Y]} } $$

と少しスッキリ書くことができます。

この相関係数について

$$ -1 \leq \rho_{XY} \leq 1 $$

が成り立つことを証明します。


離散分布の場合で示します。連続分布の場合もほとんど同じです(気が向いたらちゃんと書きます)。

確率変数$X$,$Y$がとりうる値の集合をそれぞれ$\{ x_i | i = 1, \cdots, n \}$, $\{ y_j | j = 1, \cdots, m \}$とします。

このとき、共分散は

\begin{align} \mathrm{Co}\mathrm{v}[X, Y] = \sum_{i=1}^{n} \sum_{j=1}^{m} ( x_i - \mu_X ) ( y_j - \mu_Y ) P ( X = x_i, Y = y_j ) \end{align}

とかけます。ただし$ \mu_X = E[X]$, $ \mu_Y = E[Y]$ とおきました。また、$ P ( X = x_i, Y = y_j )$は$X,Y$の同時確率関数です。

ここで

\begin{align} w_{ij}^{X} = ( x_i - \mu_X ) \sqrt{P ( X = x_i, Y = y_j )} \\\ w_{ij}^{Y} = ( y_j - \mu_Y ) \sqrt{P ( X = x_i, Y = y_j )} \end{align}

とおくと、共分散は

\begin{align} \mathrm{Co}\mathrm{v}[X, Y] = \sum_{i,j} w_{ij}^{X} w_{ij}^{Y} \end{align}

と書くことができます。

ここで、$ w_{ij}^{X,Y}$それぞれを全て縦に並べた列ベクトル$ \boldsymbol{w}^{X,Y}$を考えてみます。つまり、

\begin{align} \boldsymbol{w}^X = \left( \begin{array}{c} w_{11}^{X} \\ w_{12}^{X} \\ \vdots \\ w_{1m}^{X} \\ w_{21}^{X} \\ \vdots \\ w_{2m}^{X} \\ \vdots \\ w_{nm}^{X} \end{array} \right), \ \ \boldsymbol{w}^Y = \left( \begin{array}{c} w_{11}^{Y} \\ w_{12}^{Y} \\ \vdots \\ w_{1m}^{Y} \\ w_{21}^{Y} \\ \vdots \\ w_{2m}^{Y} \\ \vdots \\ w_{nm}^{Y} \end{array} \right) \end{align}

すると、共分散は以下のように数ベクトルの内積の形で書くことができます。

\begin{align} \mathrm{Co}\mathrm{v}[X, Y] = (\boldsymbol{w}^X, \boldsymbol{w}^Y) \end{align}

したがって、シュワルツの不等式より

\begin{align} \left| \mathrm{Co}\mathrm{v}[X, Y] \right| =& \left| (\boldsymbol{w}^X, \boldsymbol{w}^Y) \right| \leq \| \boldsymbol{w}^X \| \| \boldsymbol{w}^Y \| \end{align}

となります。また、上式の右辺については、

\begin{align} \| \boldsymbol{w}^X \| =& \sqrt{ \sum_{i=1}^{n} \sum_{j=1}^{m} (x_i - \mu_X)^2 P (X = x_i, Y = y_j ) } = \sqrt{ \mathrm{Var}[X] } \\\ \| \boldsymbol{w}^Y \| =& \sqrt{ \sum_{i=1}^{n} \sum_{j=1}^{m} (y_j - \mu_Y)^2 P (X = x_i, Y = y_j ) } = \sqrt{ \mathrm{Var}[Y] } \end{align}

と書けます。以上より、

\begin{align} \left| \frac{ \mathrm{Co}\mathrm{v}[X, Y] }{ \sqrt{ \mathrm{Var}[X] } \sqrt{ \mathrm{Var}[Y] } } \right| \leq 1 \end{align}

であるため、相関係数について$ -1 \leq \rho_{XY} \leq 1$ が成り立つことが示せました。


シュワルツの不等式がポイントになることは標本相関係数の場合と同じですね。

確率関数(密度関数)が出てくるあたりがほんの少し見た目に変化があるので、きちんと計算すると今回のような形になりました。

以上です〜。