단순회귀모형: 통계적 추정, 모델 비교, 잔차

표준 오류 추정치에 대한 통계적 검정은 t 검증이 사용됨

1. B1(회귀 계수, 베타값 or 기울기)의 표준 오류를 계산

2. t값을 계산. t값은 t = b1/SEb1으로 계산

3. t값 임계치와 비교

B1에 대한 통계적 검증으로 신뢰구간이 사용될 수 있음. 계수의 표준 오차를 사용하여 전집의 상우와 기울기에 대한 신뢰구간을 계산할 수 있음. 95% 신뢰구간을 계산하기 위해 양방 검증의 t값을 사용함. 95% CI = b1 ± (t-crit[.05])*(SEb1).

신뢰구간을 어떻게 해석할 것인가?

많은 사람들은 신뢰구간에 대해 표본의 값이 전집 구간에 들어갈 확률이 95%라고 생각함.

예를 들어, 진짜 계수가 0.7과 1.3 구간 안에 있을 확률이 95%라고 생각함. 하지만, 이는 틀린 해석임. 신뢰구간의 정의는 Region of rejection, 즉 기각역으로 번역됨. 신뢰구간은 특정 값이 존재할 것으로 기대되는 구간이 아니라, 이를 벗어난 값이 .05 수준의 1종 오류로 인해 기각되는 구간임. 따라서 신뢰구간은 95%의 확률로 값이 있을 구간이 아니라 기각될 수 없는 구간임. 이러한 해석은 과거의 심리통계학에서 가르치던 것과 다르므로 잘 이해야됨.

모형이 얼마나 데이터에 잘 들어맞는가?

모형의 정확성에 대해 접근할 수 있는 방법은 2가지가 있음

1. 잔차 통계: 표준화된 잔차

2. 영향력 케이스: COOK'S DISTANCE

표준화된 잔차

회귀선에 대한 잔차 분포 정도를 해석하기 위해 잔차를 표준화된 값으로 변환해야함. 평균 표본에서 95%의 잔차는 2표준편차 내에 존재해야함(3표준편차 이상의 잔차는 아웃라이어로 고려).

COOK'S DISTANCE 단일 자료의 영향력을 계산함. 만약 영향력이 있는 케이스가 제거된다면 회귀모형이 어떻게 변하는지에 대한 아이디어에 근거함

다른 영향력 통계치는 다음과 같음DFBETAS: 특정 케이스를 제거하였을 때, 기울기가 얼마나 변하는지 확인. DFFITS: 특정 케이스를 제거하였을 때, 전체 R^2가 어떻게 변하는지 확인.

오류에 대한 가정들은 동질성과 정규성이 있음Homoscedacity/Independence of Errors:–Plot ZRESID against ZPRED.예측된 값과 잔차의 분포도임. 둘 사이의 특정한 관계가 없어야 동질성 가정이 위배되지 않음.

Normality of Errors:–Normal probability plot.

히스토그램과 QQ플롯으로 확인할 수 있음. 정규분포를 따르는 히스토그램과 라인에 FIT 된 QQ PLOT은 정규성 가정이 위배되지 않았음을 뜻함.

모형비교

단순회귀에 대해 적용할 수 있는 또 다른 추론 통계는 두 모형을 비교하는 것임

1. COMPACT MODEL은 기울기를 0으로 둔 상수모형임.

2. AUGMENTED MODEL은 기울기와 상수를 기반한 모형임.

최소자승법을 사용하여 회귀계수를 추가함으로써 얼마나 Y의 변량이 감소하였는지를 추정할 수 있음. COMPACT MODEL에서는 모든 X에 대해 동일한 계수를 사용하므로 Y의 변량은 모델에 의해서 설명되지 않음. 따라서, 모델의 잔차 변량은 Y의 변량과 동일함. 반면, AUGMENTED MODEL은 X값의 계수로 Y를 설명함으로 회귀 변량과 잔차 변량으로 변량이 나뉘어지게 됨. 이에 따라 회귀 모형이 Y 값에 대해 얼마나 예측하는지 설명할 수 있음.

잔차 변량의 비율 감소(PRE)

PRE는 우리가 제기한 모형이 컴팩트 모델에 비해 얼마나 오류 변량을 감소시켰는지에 대한 측정치임.

PRE = {SSResidual(C) – SSResidual(A)} / SSResidual(C) 이 값은 사실 R^2와 동일함(SSY – SSResidual / SSY = SSRegression / SSY = R2). 따라서 PRE의 검증은 F값 검증과 동일한 결과를 나타냄.

MEEHI(1978)

MEEHI는 코헨과 유사하게, 영가설 유의성 검증은 심리학의 과학적 발전의 결핍을 가져온다고 주장함. 대부분의 이론은 그 자체로 검증되거나 기각되지 않음. MEEHI는 심리학 방법론이 지니는 20가지의 문제를 제기함.

몇가지 예를 들어보자.

Popperian Falsification

연역법에 따르면 만약 A=B라면, NOT B=NOT A가 됨. 다수의 일치하는 증거(귀납법)보다 하나의 결정적인 논박이 훨씬 더 분석적이고 강력하게 가설을 기각할 수 있음.

All Other Things Being Equal

통계 검증을 위해 또 다른 가정들을 필요로 함(정규분포, 변량의 동질성 등...)

Continual Scrutiny Needed

가설 검증에 대한 지속적인 측정이 연구의 일부가 되어야함. 모든 논박은 단 하나의 예시(=실험,조사)로 이루어짐. 반복 검증은 항상 이루어져야하며 반대 이론에 대해서도 항상 고려하여야 함.

따라서, 과학은 단순히 영가설 기각에 의존할 것이 아니라 정확한 예측에 초점을 두어야 함.

뭉코심리학

단순회귀모형: 통계적 추정, 모델 비교, 잔차

댓글

티스토리툴바

단순회귀모형: 통계적 추정, 모델 비교, 잔차

관련글

댓글

티스토리툴바