機械学習の概要学習🤔
Category: tool Date: 15 May 2020ものに手を出す前に概念を把握
- 機械学習: 人間の学習の一面(経験から学ぶ)を機械によりまねする(モデル)こと
- 回帰分析: xに対してyが(ある程度)決まるデータをうまく説明する関数を見るける
- 要因を重み付け/購買金額← 1.7x以前の購買金額−0.2x 年齢+XXX
- 関数を見つけられればyを予想できる・関係に従わない異常を見つけられる・要因ごとの重要性が見える
- どのように関数を見つけるか
- →1.モデル・関数の形を決めるy=ax+b / 2.学習・データに合うパラメータを決める(aとb)
- データにあう→データとの誤差が小さいこと
- 誤差の小さいabを探すのに切りはない→無限にコンピュータが速ければランダムに当てて探せる
- 最適化: 関数の最小点を見つける
- 微分=0傾きなしの方程式を解く/勾配法・徐々に低い方向に動かす/乱数を使う
- 機械学習: モデルから数式を作って・効率的な最適化法で解く(最小誤差にする)
- すべての点を通る関数(一次関数だけではない)なら正しいか?
- 最初に与えた関数の形(=モデルの形)がおかしい状態
- 期待する(見えない)データが違うとそれぞれに正解になってしまう
- 直線の答えを想定する場合にすべての点を通る曲線を得てしまう
- 過学習: 学習データにはよく当てはまるが期待するデータから離れてしまっている状態
- モデルのパラメータが増えるほど陥りやすい
- 過学習への対策
- 1.最初から最適なモデルを使う・直線の性質を持っていると知っている場合に直線を使う
- 2.期待するデータを用意する・開発(検証)データ・王道
- 3.正則化
- 正則化
- データが少し動いているとき・解(モデルのab)も少しだけ動くことを期待する(大きな形が変わることを望まない)→原理: 満たすべき根本的な性質
- 原理を満たさない問題は不良設定問題
- 不良設定問題を「良い問題」に変換する仕組み→正則化
- モデルのトレードオフ
- データに適切な小さい(パラメータの少ない)モデル→学習も予測も高速高性能だが現実的には無い
- 表現力の大きいモデル→過学習を起こしやすい
- モデルの選び方
- モデル選択→候補の中から一番良さそうなものを見つける/検証データ・交差検証・AIC
- 正則化→過学習が起きにくいように大きいモデルを調整する
🐻🐶🐱