본문 바로가기
통계 및 SPSS

단순 회귀 모형

by 뭉코원정대 2020. 7. 12.

회귀 분석은 두 변인의 관계를 정의하기 위해 사용함. 

 

회귀식: Y = B0 + B1*X1 + E

Y: 종속변인(예측되는 변인)

X: 독립변인(예측에 사용되는 변인)

B1: 기울기, X의 변화에 따른 Y 값의 변화

B0: 상수

E: 잔차

 

회귀의 목적

1. Y와 X의 관계를 기술

2. X로부터 Y를 예측

3. Y변인에 대한 이해

 

하나의 결과에는 다양한 원인이 있음

예를 들어, 학점을 예측하는데 있어, SAT 점수는 좋은 지표(변인)이지만 다양한 변인들이 존재함.

따라서, 하나의 현상(결과)에 대한 데이터는 정확한 회귀선(직선)에 맞아 떨어지지 않음.

 

따라서, 회귀식을 따라 예측된 Y'의 점수는 B0+B1X임. 따라서, E(잔차)는 Y-(B0+B1X)가 되며, 이는 Y - Y'로 나타냄.

만약, Y'의 변락이 크고, E의 변량이 작다면 예측이 정확하다는 것을 의미하고, Y'의 변량이 작고 E의 변량이 크다면 예측이 부정확한 것을 의미함. 

 

전집에 대한 가장 좋은 추정치는 평균이다. 오차(잔차)는 실제 Y값과 예측된 Y값의 차이를 나타냄. 

오차를 최소화하는 회귀계를 추정하기 위해서, 표준 회귀 모형은 잔차를 최소화하는 최소자승법(OSL)을 사용함. 

이 방법은 X의 값이 모두 오차없이 측정되었다고 가정함.

 

E는 분산의 측정치이므로 평균은 항상 0임. 따라서, 상우와 기울기는 E의 자승합을 최소화하는 값으로 추정됨.

B0와 B1는 공변량과 변량을 통해 계산되고, B1(기울기)는 예측 변수의 변량으로 공변량을 나눈 값으로 계산됨.

 

동질성 가정(Homoscedasticity assumption)

 

공변량의 사용은 동질성 가정이 요구됨. 이는 잔차의 평균이 모든 X값에 대해 동일할 것을 가정함.

Q-Q plot 등을 통해 동질성 가정을 확인할 수 있음. 만약, 동질성 가정이 위배된다면 계산한 기울기는 편향적인 것이 됨. 

 

결정계수 

 X에 의해 설명되는 Y의 변량은 R^2로 표시됨. R^2는 회귀변량을 전체 변량으로 나눈 값으로 계산됨. 어떠한 표본에서도 이 값은 0보다 큼. 상관관계에서 가장 좋은 효과 크기 추정치는 상관계수 r임. 상관계수 r은 -1과 1사에 위치하고, 0은 두 변인이 독립적으로는 것을 나타냄. 

 

z-score 변환을 사용하여 표준화된 값으로 바꿀 수 있음(X - 평균)/(표준편차). 

이러한 변환을 통해, 1 표준편차 만큼의 X의 변화에 따라 Y가 변한 값을 추정할 수 있음. 

표준화된 회귀계수(Standardized beta weights)는 기존 회귀분석에서 계산된 값과 다르지만 두 변인 간 관계는 변화하지 않고, 표준화 회귀에서 베터값은 피어슨 상관값과 동일함. 

 

통계 검정

단순회귀모형에서 통계검정은 2가지가 있음. 

1. 회귀계수(베타값 / 기울기)의 유의도 검정으로 t 검증을 이용함. 

2. 회귀결정계수(R^2 / 설명량)에 관한 것으로 F 검증을 이용함.

 

Y 값의 변량은 회귀식의 변량과 잔차의 변량으로 구성됨.

회귀계수의 영가설을 검정하기 위해서는 정규성 가증이 필요함.

정규성 가정은 회귀분석에서 잔차들이 정규 분포를 이룰 것을 가정함. 따라서 자연스럽게 Y 값들은 정규 분포를 이루는 것을 가정함. 이를 통해, t 분포 또는 F 분포의 사용이 가능해짐.

 

SIMPSON'S PARADOX

회귀 모형을 통해 우리는 무엇을 설명할 수 있는가?! 사실상 아무것도 없다! 특성 개인의 변산을 반영하지 못하기 때문이다!

 

 

반응형

댓글