안녕하세요 풍요로운 쫑아입니다. 소강기에 접어들었다고 생각한 코로나 바이러스가 다시 기승을 부리기 시작했습니다. 빠르게 해결되길 기원합니다.
오늘은 회귀분석에 대해 알아보도록 하겠습니다. 회귀분석은 지금까지 분석과는 다른 결과값을 나타내줍니다. 지금까지는 어떤 집단간의 차이가 있다 또는 없다, 어떤 집단간의 관계가 있다, 없다를 보아왔다면 이번 회귀분석은 정확하게 독립변수가 종속변수에 얼마만큼의 영향을 준다라고 나타내주는 분석을 말합니다. 그래서 회귀분석은 우리가 흔히 아는 방정식으로도 나타낼 수가 있지요
본격적인 회귀분석을 위해 위의 그림1처럼 소득, 성별, 삶의만족도에 대한 변수 값을 입력하였습니다. 여기서 우리가 보고자 하는 것은 소득과 성별에 따라 삶의 만족도가 얼마만큼 영향력을 가지는지 회귀식으로 분석해볼 예정입니다. 여기서 성별은 남성는 1, 여성은 0으로 구분하였고, 소득은 만원 단위, 삶의 만족도는 20점 척도로 나타낸 값입니다.
회귀분석을 위해서는 분석-> 회귀분석 -> 선형을 차례대로 눌러주시면 됩니다. 그럼 아래 그림3과 같이 작은 창 하나가 활성화 됩니다.
왼쪽에는 모든 변수들이 나타나있고, 오른쪽에는 종속변수와 독립변수칸이 나타나 있습니다. 우리가 주로 만질 부분은 이 종속변수와 독립변수 입니다. 최초에 우리는 소득과 성별에 따른 삶의 만족도의 영향력을 보려고 했으므로 독립변수에는 소득과 성별을 종속변수에는 삶의 만족도를 넣어주면 됩니다.
여기서 일단은 소득만 넣어봤습니다. 해당 변수를 활성화한 상태에서 각각 종속변수, 독립변수로 빨간 박스를 눌러 이동시켜 줍니다. 위의 그림4처럼 독립변수가 하나만 들어간 상태를 '단순 회귀 분석'이라고 합니다. 우리는 여기서 아래 그림5처럼 성별변수를 하나 더 투입할 것이기 때문에 '다중 회귀 분석'을 실시하는 것으로 이해하시면 됩니다.
그 다음 통계량을 눌러줍니다. 그럼 아래 그림6과 같이 작은 창이 하나 뜹니다. 여기서 기본적으로 추정값, 모형 적합에는 체크가 되어있습니다. 추가적으로 기술통계와 공선성 진단을 눌러줍니다. 그리고 계속을 눌러줍시다.
공선성 진단이라는 개념이 생소하실 건데 이것은 독립변수간의 유사성을 본다고 생각하면 쉽습니다. 즉, 다중회귀분석을 할때 각각의 독립변수들이 종속변수의 얼마만큼 영향을 주는지 계산을 하게 되는데 이때 독립변수가 '소득'과 '소득분위'라면 사실상 두 변수는 매우 유사하며 같다고도 볼수 있으므로 다중공선성의 문제가 발생합니다. 굳이 두 변수를 다 넣을 필요가 없다는 것입니다.
자 이제 확인을 눌러 결과값을 도출해 봅니다.
먼저, 그림6에서 기술통계를 체크했을 때 나타나는 표가 '기술통계량'과 '상관계수'입니다. 기술통계는 우리가 아는 평균과 표준편차 그리고 전체 숫자를 나타냅니다. 삶의 만족도를 예를 들면 평균 11.53, 표준편차 5.117, 전체 인원은 30명이 되겠습니다. 그리고 그 밑의 표인 상관계수는 우리가 앞서 상관관계 분석에서 배운 내용이 그대로 나옵니다. 여기서는 삶의 만족도가 소득의 상관계수가 0.848, 그리고 삶의 만족도와 성별의 상관계수는 0.817, 끝으로 성별과 소득의 상관계수는 0.670으로 나타나는군요 대체적으로 높은 양의 상관관계가 나타난다고 볼 수 있습니다.
그 밑의 입력/제거된 변수는 회귀분석에서 제거된 변수가 있는지 유무를 나타냅니다. 그리고 모형 요약은 R 제곱값을 주의 깊게 보시면 됩니다. 회귀분석에서는 이 값이 설명력이라고 하며, R제곱값(또는 설명력)이 0.831로 종속변수인 삶의 만족도를 83.1% 설명하고 있다고 이해하시면 됩니다.
다음으로 그림8의 첫번째 표인 ANOVA를 보아주시기 바랍니다. 이것은 회귀식 자체의 유의여부를 보는 것입니다. 즉, 이번 회귀분석의 회귀식은 '삶의 만족도 = 상수값 + 소득×B1 + 성별×B2'를 말합니다. 여기서 B는 베타값을 나타냅니다. 두번째 표인 계수를 보시면 '비표준화 계수'에서 B라고 표시된 부분열과 소득 행과의 만나는 부분이 B1(0.034)값이며, 성별과 B가 만나는 부분이 B2(4.635)값입니다.
다시 그림8의 첫번째 표인 ANOVA에서 위의 회귀식이 유의한지 여부를 보면 빨간 박스의 유의확률을 보면 됩니다. 유의확률이 0.000으로 0.05보다 작으므로 회귀식이 유의하다고 볼 수 있습니다.
다음으로 두번째 표인 계수로 넘어가 봅시다. 잠깐 언급하였듯이 이 값은 각각의 소득 및 성별에 대한 계수 값의 유의한 정도를 알아볼 수 있습니다. 유의확률을 보시면 소득과 성별값이 0.05보다 작으므로 각각의 계수는 유의하다고 볼 수 있습니다. 이를 토대로 회귀식을 제대로 세워보면 아래와 같습니다.
삶의 만족도 = 0.965 + 0.034×소득 + 4.635×성별
이를 해석을 하면 소득이 1만원 증가할때 삶의 만족도는 0.034점이 증가하고, 성별이 여성에서 남성으로 갈때 즉, 0에서 1로 갈때 삶의 만족도가 4.635점 증가한다는 의미 입니다.
그리고 우리가 다중공선성도 검토해야 하므로 빨간박스의 VIF부분을 봅시다. 일반적으로 VIF가 10을 넘지 않으면 다중공선성에 위배되지 않는다고 봅니다. 여기서는 VIF가 1.813점으로 10을 넘지 않으므로 다중공선성에 위배되지 않는다고 해석합니다.
여기까지 SPSS를 활용한 회귀분석 방법에 대해서 알아보았습니다.
저는 지금까지 SPSS 통계 프로그램을 이용한 간단한 분석 방법들을 포스팅해왔습니다. 저의 설명들은 처음 SPSS를 시작하시는 분들을 위한 포스팅이며 좀 더 고급 통계를 위해서는 다른 전문 포스팅이나 책을 활용해주시면 감사하겠습니다. 지금까지 부족한 글을 읽어주셔서 감사드리며, 또 다른 주제로 찾아뵙도록 하겠습니다. 감사합니다.
'SPSS 통계 프로그램' 카테고리의 다른 글
[SPSS] 상관관계 분석 (0) | 2020.02.18 |
---|---|
[SPSS] 일원 분산분석(One-way ANOVA) (0) | 2020.02.13 |
[SPSS] T-검증(T-test) (0) | 2020.02.12 |
[SPSS] 카이제곱 검정 (2) | 2020.02.11 |
[SPSS] 왜도, 첨도의 구분 (0) | 2020.02.10 |