사회조사방법

사회조사 통계분석 방법 교차분석과 분산분석

Peanut butter 2021. 2. 20. 19:18

 

사회조사를 하는데 변수 간의 관련성을 분석하기 위한 기법으로 교차분석이 있습니다. 오늘은 교차분석과 분산분석에 대한 이야기를 하도록 하겠습니다. 먼저 교차분석은 명목 척도와 서열 척도 이 두 가지의 변수가 가진 범주를 교차한 다음 빈도를 표시하는 교차 분석표를 작성한 다음에 이 변수들 간의 상관관계를 분석하는 방법입니다. 총 네 가지 검정 방법이 있는데 하나씩 소개하겠습니다.

 

 

먼저 적합도 검정은 관찰도수와 기대 도수의 적합성을 검정하는 것입니다. 독립성 검정은 변수 사이의 관련도를 알아보는 것인데 이때 독립성을 검증합니다. 동일성 검정은 부분 모집단의 표본이 주어졌을 때 이 모집단의 분포가 서로 동일한지를 검증하는 방법입니다. 마지막으로 검정통계량은 두 변수 간의 관계를 카이제곱이라는 통계량을 사용하여 이용하는 것입니다.

 

교차분석은 교차 표에서 각 칸의 관찰 빈도 그리고 기대 빈도 간의 차이를 검정하기 위해 카이제곱이라는 검정 통계량을 이용합니다. 이때 기본적으로 가정해두는 것이 있는데 세 가지 대표적인 가정이 있습니다. 첫째 두 변수는 서열처도 또는 명목 척도여야 합니다. 두 번째 기대 빈도와 관찰 빈도가 오보다 작은 셀이 이십 퍼센트 미만이어야 합니다. 마지막으로는 각 셀의 빈도는 서로 상호 독립적이어야 합니다. 교차분석을 하는 이유는 귀무가설과 대립 가설을 검정하기 위한 것으로 귀무가설은 두 변수가 서로 연관 있다는 것을 가정하는 것이고 대립 가설은 두 가설이 서로 연관성이 있다고 하는 것입니다.

 

다음으로 적합도 검정에 대한 이야기를 하겠습니다. 적합도 검정은 모집단의 분포에 관한 가정을 했을 때 이 가정이 옳은지 이를 어떤 자료를 바탕으로 검정하는 것이며 이를 적합도 검정이라 칭합니다. 우선 표본자료를 범주라는 카테고리 하에 분류를 한 후에 각 범주에 속하는 관측 도수 귀무가설에서 주어진 확률분포에 대한 각 기대 도수를 파악하고 이를 검정하는 것을 말합니다.

 

 

여기에서 H0는 실제 분포와 이론적 분포가 일치하다는 것을 의미하고 H1은 실제 분포와 이론적 분포는 일치하지 않는다는 것을 가정하는 것입니다. 다음은 검정 통계량에 대한 정의로 검정 통계량은 관찰 도수 그리고 기대 도수 사이에 적합도에 따라 영향을 받는 통계량을 정의하는 것을 의미합니다.

 

통계량의 값이 크면 범주별로 관찰 도수 그리고 기대 도수 차이가 커서 적합도가 낮고 통계량 값이 작으면 관찰 도수와 기대 도수의 차이가 적어서 적합도가 높다고 판단합니다. 여기서 자유도를 정의할 때는 범주의 수에서 1을 뺀 값으로 표시합니다.

 

독립성을 검정하는 방법은 모집단에서 자료를 추출하고 범주화되었을 때 범주화된 카테고리가 서로 연관성이 있는지를 파악하는 것이 독립성 검정입니다. 동일성 검정은 모집단을 범주화하고 모집단에서 추출한 표본이 각 모집단의 분포와 동일한가를 판단하는 것을 의미합니다. 이때 동일성 검정과 독립성 검정의 가설 설정 자유도 검정 통계량은 모두 동일하게 적용이 됩니다.

 

분산분석은 두 집단의 평균 차이가 통계적으로 유의한가를 분석하는 방법으로 독립변수는 범주화 척도로 종속변수는 등간 척도나 비율 척도로 나타내야합니다. 독립변수를 다른 말로 팩터라고도 부르며 요인 수준이 세 개 이상인 경우에 분산분석을 택합니다. 분산분석에도 기본적으로 가정하는 것이 있는데 종속변수는 비율 척도 또는 등간 척도 이어야 한다와 모집단의 분포는 정규분포여야 한다 각 집단의 표본은 독립적이고 수는 같아야 한다가 있습니다.

 

분산분석에도 특징이 있는데 이는 두 개 이상의 모평균 차이를 검정하는 것과 F-분포를 사용하는 것 이때 F값은 집단 간 분산을 집단 내 분산으로 나누기한 값으로 설정하는 것 그리고 집단 간 차이가 커진다면 F값도 커집니다.

 

 

분산분석방법에는 이원 분산 분석법 다원 분산 분석법 일원 분산 분석법이 있습니다. 분산분석에도 가설이 있는데 이때 기본적으로 세 집단의 평균 차이를 검정하기 위한 것으로 귀무가설과 대립 가설이 있습니다. 

 

일원 분산분석은 세 개 이상의 집단이 있을 때 평균 차이를 어떤 한 요인의 기준으로 알아보는 분석 방법으로 어떤 실험에서 영향을 미치는 건 인자라 고하고 인자를 분류하는 조건을 인자 수준이나 처리라고 합니다. 이원 분산분석은 두가지 요인이 있을 때 이 집단들의 차이를 분석하는 기법을 말합니다. 이원 분산분석은 두 종류의 실험 요인이 효과가 있는지를 검정하는 것으로 이 역시도 가설을 설정해야 합니다.