回帰分析の概要のざっくりとしたまとめ
回帰とは何か?
回帰とは、「依存変数」という一つの数値と、「独立変数」という一つ以上の数値の関係を規定すること。
依存変数は独立変数の値に依存している。
依存変数は目的変数とも呼ばれ、独立変数は説明変数と呼ばれる。
回帰分析は一般にデータ要素の間の複雑な関係をモデリングし、処理が結果に与える影響を予測し、将来に起きることを推定するために使われる。
独立変数が一つしかない場合を「単純線形回帰」、独立変数が複数あるときには多重線形回帰あるいは重回帰と呼ぶ。
最も基本的な単純回帰モデルは以下のように定義される。
回帰は何かを分類するときにも使うことができる。
ロジスティック回帰は2値のの分類結果をモデリングし、ポアソン回帰は整数の度数データをモデリングする。
多項ロジスティック回帰はカテゴリをモデリングするので分類に使える。
さて、上で書いた
のα、βの最適な推計値は、最小二乗回帰(Ordinary Least Squares: OLS)と呼ばれる方法で決める。
最小二乗回帰では、傾きと切片は、誤差(error)の2乗の総和が最小になるように選ばれる。
誤差とは、yの予測値と実測値の縦の距離のこと。残差(risidual)とも呼ばれる。