数学Ⅰ

データの分析

データの分析の重要性は実際に研究をする時に役立つ。
実験などで得たデータを分析する方法を知らなければ、正しい実験の結果を読み取ることはできない。

代表値

代表値とは得た複数のデータを代表するデータとして計算した結果の値である。

平均値

代表値の中で最も重要な代表値が平均値である。
複数のデータ
$$x_1,x_2,x_3,・・・,x_n$$
の平均値は以下の式で求める。
$$\overline{x}=\frac{x_1+x_2+x_3+・・・+x_n}{n}$$

平均値が代表値の中で最も重要な理由は、どのデータにも依存するということである。
次節で説明する中央値や最頻値は特定のデータにしか依存しない。
なので、全てのデータを含めて計算する平均値が最も重要である。

中央値

中央値とは、データを小さい順に並べた時に真ん中に来るデータの値のことである。

例)
複数のデータが以下のようにあるとする。
$$1,3,3,4,4,7,7,7,9$$
これらのデータの真ん中にあるデータの数字は4であるので、これらのデータの中央値は4となる。

だが、中央値は真ん中の数字にしか依存しない。
例えば例)のデータが以下のように変わったとする。
$$1,3,3,4,4,7,7,11,12$$
7→11、9→12と変わっているがデータの真ん中の数字は変わっていないので代表値は変わらず4である。
このように中央値は全てのデータは等しく評価しているとは言えないのである。

最頻値

最頻値とはデータの集合の中で一番多い数字の値である。

例)
複数のデータが以下のようにあるとする。
$$1,3,3,4,4,7,7,7,9$$
これらのデータの中で一番多い数字は7である。
よって、最頻値は7となる。

だが、この最頻値も中央値と同様に全てのデータを等しく評価しているとは限らない。
例えば例)が以下のように変わったとする。
$$1,2,3,4,4,7,7,7,10$$
3→2、9→10と変わったとしても、一番多い数字は7なので最頻値は変わらず7である。
よって、最頻値も全てのデータを等しく評価しているとは限らない。

データの集合の広がり具合を示す偏差

複数のデータから代表値(主に平均値)を求めた時、その代表値がどれほど正確な値なのか評価する指標になるのが偏差である。
誤差とも呼ばれる時がある。

標準偏差

偏差で一番有名なのが標準偏差である。

標準偏差を求めるには平均値と分散を求める必要がある。

例)
以下のデータがあったとする。
$$x_1,x_2,x_3,・・・,x_n$$
この時の平均値は以下で計算できる。
$$\overline{x}=\frac{x_1+x_2+x_3+・・・+x_n}{n}$$
次に分散を計算するにはこの平均値から求める。
分散を求める式は以下である。
$$s^2=\frac{\left(x_1-\overline{x}\right)+\left(x_2-overline{x}\right)+・・・+\left(x_n-\overline{x}\right)}{n}$$
それぞれのデータと平均値の差(引き算)の2乗の平均の値が分散である。

そして、標準偏差は分散を平方根で取った値である。
つまり、標準偏差はsとなる。
標準偏差は複数のデータが平均値からどれだけ離れているかを示す値となる。

四分位数

四分位数とはデータの集合を小さい順に並べた時に均等に4つに分けた時の境界の数字の値である。

例)
データが以下だとする。
$$5,8,9,11,14,15,17,18,20$$
真ん中の第二四分位数(中央値)は14である。
第一四分位数は2つに分けた左の部分の真ん中の数字の平均なので、
$$\frac{8+9}{2}=8.5$$
である。
第三四分位数は2つに分けた右の部分の真ん中の数字の平均なので、
$$\frac{17+18}{2}=17.5$$
となる。
このように求めた第三四分位数から第一四分位数の差(引き算)を2で割った値を四分位数偏差と呼ぶ。

だが、四分位数偏差も代表値の中央値や最頻値と同じ様に全てのデータを等しく評価しているわけではない。
その点で見ると、前節の標準偏差の方が偏差の正確性は高いと言える。

2つのデータの相関関係

今までは1つの変量(x,yなど)のデータの分析について話してきた。
今節では2つの変量の相関関係について話す。

相関関係とは

相関関係とは2つ以上のの変量(例えばx,yなど)をグラフにした時に右上がりに上がっていくか、左上がりに上っていくかなどの法則性がある場合は相関関係があると言う。

共分散

2つの変量の分散の事を共分散と呼ぶ。
共分散の求め方は以下になる。

例)
xという変量のデータは以下にある。
$$x_1,x_2,x_3,・・・,x_n$$
yという変量のデータは以下にある。
$$y_1,y_2,y_3,・・・,y_n$$

x,yのそれぞれの変量のデータの平均値をそれぞれ
$$\overline{x},\overline{y}$$
とする。
共分散はそれぞれの変量のデータの平均値とそれぞれのデータの差(引き算)の積(掛け算)の平均である。
式で表すと以下になる。
$$s_{xy}=\frac{\left(x_1-\overline{x}\right)\left(y_1-\overline{y}\right)+\left(x_2-\overline{x}\right)\left(y_2-\overline{y}\right)+・・・+\left(x_n-\overline{x}\right)\left(y_n-\overline{y}\right)}{n}$$

相関係数の求め方

相関係数はx,yのそれぞれの分散
$$s_x,s_y$$
と共分散
$$s_{xy}$$
から求める。
相関関数rの式は以下である。
$$r=\frac{s_{xy}}{s_x s_y}$$
相関係数rの範囲は
$$-1\leq r\leq1$$
である。
相関係数rが-1に近いほど負の相関(左上がり)が強く、rが1に近いほど正の相関(右上がり)が強くなる。
2つの変量の相関が無い場合には相関係数rは0に近くなる。

練習問題はこちら