認識迴歸模型(regression model)

2020/12/25

什麼是迴歸模型
範例實作
後記
參考資料

什麼是迴歸模型

迴歸模型是最被廣泛使用於探究因果關係的模型。

以下為一個常見的線性模型(linear regression)示意

$$ y = \alpha + \beta x + e $$

在等號左方的 $y$ 即為被解釋變數(depened varible)或作應變數，$x$ 為解釋變數(independ varible)或作自變數。

上述示意的模型中，使用者感興趣的是 $x$ 對於 $y$ 的影響，例如學歷($x$)對於薪資 ($y$)，或是營業收入($x$) 對於股票報酬率 ($y$)。

而等號右方的其他符號分別是 $\alpha$ 為截距(intercept)，為估計係數(slope coefficient)，$e$ 為殘差(error term)。

那迴歸模型是如何去觀察兩者$(x, y)$間的因果關係呢?

主要有三種估計方法

最小平方法(Ordinary Least Square, OLS)
最大概似法(Maximum Likelihood Estimation, MLE)
動差法(Method of Moments)

下方使用的是最小平方法

最小平方法的核心概念就是regression to mean，透過變異量的解釋來觀察模型的配飾程度。

透過觀察$y$變數和本身平均值($\bar{y}$)間的差異，也就是$y$的變異量，和$x$變異量之間的關係，可以透過對觀察值和平均數之間的差距來找到一條最棒的模型，至於 $\alpha$ 和 $\beta$的計算公式直接寫在下頭，推導的部份幾乎所有的統計教科書都有

$$ \beta = \frac{S_{xy}}{S_{xx}}\quad $$

$$ \alpha = \bar{y}- \beta \bar{x} $$

$S_{xy}$ 為X和Y的共變異數(covariance), $S_{xx}$ 為X的變異數(variance)，公式如下，等等在實作中來用Excel驗證答案是否跟R跑出來的一樣

$$ S_{xy} =\frac{\sum_{i=0}^n (x-\bar{x})(y-\bar{y})}{n-1}\quad $$

$$ S_{xx} =\frac{\sum_{i=0}^n (x-\bar{x})^2}{n-1}\quad $$

範例實作

simple-regression.csv

簡單迴歸的範例檔案在上面的連結中，內容為學生的統計考試成績和花費在統計上的唸書時間，我們感興趣的主題是，讀書時間和成績之間的關係，這時讀書時間就是X，也就是自變數，而成績則是Y，即應變數，接下來將透過簡單迴歸進行分析

首先先讀取資料，因為表頭有中文的關係才在函式中加上encoding，讓軟體辨識，不然中文會變成亂碼,接著看看前六筆資料

library(readr)
data = read.csv('simple-regression.csv', encoding = "ASCII")
head(data)

  成績 讀書時間
1   90       14
2   86       10
3   96       11
4   95       14
5   96        8
6   91        8

然後將表頭更名成英文，方便操作

colnames(data) = c('score','hours')

接著進行迴歸分析並且印出統計結果

model <- lm(score ~ hours, data = data)
summary(model)

估計結果

######## 以下為統計結果 #######

Call:
lm(formula = score ~ hours, data = data)

Residuals:
     Min       1Q   Median       3Q      Max
-19.0208  -4.2346   0.8714   4.8114  13.6753

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  72.7169     2.4706  29.433  < 2e-16 ***
hours         1.5760     0.2528   6.235  1.1e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.378 on 48 degrees of freedom
Multiple R-squared:  0.4475,	Adjusted R-squared:  0.436
F-statistic: 38.88 on 1 and 48 DF,  p-value: 1.095e-07

一般在做統計題時會有查表的需要，看統計結果是否顯著，通常在比較正規的統計報告中會從設定假說開始，然後確認顯著水準(一般都用5%)，但這邊的範例簡化了實驗過程 ,讓軟體跑出來後可以直接看P值解讀。

如果小於0.05的話便認定影響是顯著的，而截距和讀書時間(hours)的P值後面都打了三個星號(*)，星號多寡代表的即是顯著程度的不同，分別代表的顯著水準在 Signif. codes那欄有寫，都有顯著的情形下，統計結果可以解讀作

數據解讀

當花在統記的讀書時間增加 1 單位時，統計考試成績會相對增加約 1.58 單位
當沒有花任何時間讀統計時，會有約 72.72 的成績

寫單位的原因是比較通用的緣故，如果說手邊拿到的資料並不曉得單位是什麼，例如這份範例檔案有特別標明讀書時間是小時，但如果沒特別註明，說不定是天或其它的時間單位也有可能。

迴歸模型視覺化

因此直接使用單位解釋是比較保險的用法。再來看看圖畫出來會是如何

library(ggpubr)
theme_set(theme_pubr())
ggplot(data, aes(hours, score)) +
  geom_point() +
  stat_smooth(method = lm)

迴歸模型數學表示

上圖中的黑點就是一個X對應一個Y，而中間的藍色線就是估計出來的結果，也就是模型，如果寫成數學表達的話就會如下面所示

$$ score = 72.7169 + 1.5760 hours $$

透過代入不同的x得到的y，所連接起來的資料就是那條藍色線，而黑點和藍線之間就是無法解釋的部份，考試成績無法被讀書時間這個變數所解釋的部份，也就是殘差

後記

驗算.xlsx

學會解讀報表和使用R語言進行迴歸後，用Excel驗算看看R語言的估計結果，如果說不懂得統計軟體計算的原理，而直接使用的話，總會有些心虛的感覺，因此利用Excel來套入公式計算出來。

檔案在上面連結中，驗算出來的結果皆和R語言相同，因此當未來在使用時，便能夠瞭解係數是如何估計出來，就不會因為不了解來由而用得不踏實了

參考資料

Simple Linear Regression in R