機械学習と主成分分析｜Tech Press

機械学習とは

機械学習とは、データのパターンを学習することで識別や回帰による予測をソフトウェアで実現する手法です。

例えば、人の話し声を識別して文字に変換したり、有名どころだと株価の予測に使われてたりしています（実用レベルに達していない）。後は、 IoTなどと組み合わせて、オフィスや住宅の冷房・暖房最適化することで、消費電力を4割削減した実証例もあります。

機械学習では、人間には認知できない程多くの変数からパターンを学習できる。

学習のアルゴリズムは、ニューラルネットワークやサポートベクターマシーンやランダムフォレストなど多数存在する。

特徴ベクトル

識別や回帰のために観測値を順番に並べたベクトルを特徴ベクトルと言います。

例えば、体重:x1,身長：x2,体脂肪率：x3,平均的な髪の長さ：x4,毛髪面積比（ハゲ面積/頭皮面積）：x5,髪の平均直径：x6　をもいいて男女を区別する場合を考えてみましょう。xを並べたものが特徴ベクトルXです。個々の要素のことは特徴量と呼びます。

X = (x1, x2, x3, x4, x5, x6)

レコード番号	x1	x2	x3	x4	x5	x6
1	69.4	152.3	16.6	16.7	0.452	0.019
2	55.9	150.7	14.0	22.3	0.468	0.021
3	65.2	162.3	15.1	20.1	0.669	0.022
4	63.7	164.0	18.8	22.8	0.581	0.023

教師あり学習

教師あり学習とは、特徴ベクトルと正解の関係を学習する手法です。

ここで、正解が付与されたデータを教師データと呼び、そのうち学習に用いられるデータを学習データと呼びます。

レコード番号	x1	x2	x3	x4	x5	x6	y
1	69.4	152.3	16.6	16.7	0.452	0.019	man
2	55.9	150.7	14.0	22.3	0.468	0.021	man
3	65.2	162.3	15.1	20.1	0.669	0.022	man
4	63.7	164.0	18.8	22.8	0.581	0.023	woman

教師ラベルの扱い

正解は、識別が目的の場合は文字列、回帰が目的の場合は数値となる。文字列の場合、特に正解ラベル又は教師ラベルという。

ただし、教師ラベルであっても学習時には数値に変換されて扱われている。どのように変換されるかはプログラム次第になります。

また、ソフトウェアによっては教師ラベルに数値しか受け付けないものもあり、その場合は以下のように教師ラベルを整数に変換しておく。

man -> 0、woman -> 1

教師あり学習の作業の流れ

教師あり学習における作業の流れは以下のようになります。主成分分析は「教師データの作成」で利用されることがあります。

次元数削減の要請

機械学習では、特徴ベクトルの次元数が増えるほど、偶然生じたパターンを学習しやすくなります。これを次元の呪いと言います。

又たとえば、1つの特徴量につき３個のパターンがあるとします。それぞれのパターンが独立であれば、２次元の特徴ベクトルで生じる合計のパターン数は３の２乗で９パターンです。n次元であれば３のn乗になります。初等統計学で学ぶように、変数が正規分布と仮定すると１パターン当たりの最低限必要なデータ数は３０個程です。つまり、学習データ数は３０×３の乗個必要であり、次元数が増えると指数関数的に学習に要するデータ数は増加します。

必要なデータ数を確保するために実験を指数関数的に行うのは考えたくありません。実験数は少ないに越したことはありません。

したがって、特徴ベクトルの次元数は少ない方が良いです。