ある村の人口推移の予測 (Simple Linear Regression: 単回帰)

平成最後の12月も残りわずかになってきました。
人口減少という大きな問題について、小さな村のデータをもとに分析してみたいと思います。
ここに2000年を起点とした5年毎の人口データがあります。

f:id:shinji629:20181227155511p:plain

たったこれだけの情報を利用して、2020年の人口を予測してみます。

回帰分析のうち、単回帰分析というのは1つの目的変数を1つの説明変数で予測するもので、その2変量の間の関係性をY=aX+bという一次方程式の形で表します。a(傾き)とb(Y切片)がわかれば、XからYを予測することができるわけです。

95%信頼区間で計算した途中結果がこちらです。「95%信頼区間」とは、「母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」という意味です。

f:id:shinji629:20181227160403p:plain

グラフにするとこのような右肩下がりです。グラフ中のR^2 は決定係数といいますが、相関係数Rの2乗です。寄与率と呼ばれることもあり、説明変数が目的変数のどれくらいを説明しているかを表しています。ここでは、0.946なので相関関係が大きいと言えます。

f:id:shinji629:20181227160539p:plain

この計算結果をもとに、2020年の人口を予測してみたいと思います。

2020年のIndexを5とします。Y= -80.9*5 + 814 = 409.5

つまり、約410人と予測できます。ただし、実際にはいろいろな要素が人口の増減に関わるので、あくまで目安としてとらえた方がいいです。