본문 바로가기

통계분석

통계 분석 방법 (차이검정 : t-test, ANOVA)

□ 통계분석 방법

    통계분석방법은 그룹간의 차이를 검정하는 차이검정과, 변수와 변수간 관계(영향)가 있는지 없는지 검정하는 관계검정으로 나뉜다.

   1. 차이검정

       차이검정은 Factor(요인)와 그룹의 개수에 따라 t-test와 ANOVA로 구분된다.

      1) t-test(t검정)

        ▶ 특징

            . 모집단의 분산/표준편차를 알지 못할 때, 표본의 분산/표준편차를 통해 모집단의 평균을 비교하는 검정이다.

              모집단의 분산/표준편차를 알고 있다면 Z-검정 하면 된다.

            . Factor(요인)가 1개이고 그룹(수준)이 2개 이하일 때만 사용 가능하다.

            . 그룹은 범주형(Categorical) 변수이고, 측정치는 수치형 변수이다.

 

        가정

            . 정규성 (One Sample t-test, Independent Sample t-test, Paired Sample t-test)

              : shapiro-wilk normality test 또는 Q-Q plot, Histogram으로 확인한다.

            . 독립성 (Independent Sample t-test)

              : 두 그룹은 서로 독립적이어야 한다. 독립성을 가정하지 못할 경우 Paired Sample t-test로 수행해야 한다.

            . 등분산성 (Independent Sample t-test)

              : R에서는 var.test()로 확인. Brightics에서는 F Test For Stacked 함수로 확인한다.

                R과 Brightics 모두 t-test 함수안에 파라미터로 등분산여부를 설정한다.

               등분산이면 pooled variance를 활용한 Student's t-test, 아니라면 Welch's t-test가 사용되어 자동 계산된다.

 

        종류

            (1) One Sample t-test (일표본 t검정)

                : 그룹이 1개일때 모집단의 예상 평균치가 맞는지 표본을 통해 비교 검정

                  예) 어느 베스킨라빈스 매장의 파인트 무게가 320g이 맞는지 의심을 품고 샘플을 뽑아 검정 진행

            (2) Independent Sample t-test (독립표본 t검정)

                : 독립적인 두 모집단의 평균에 유의미한 차이가 있는지 비교하기위해 각 표본들의 평균을 비교

                  예) A타이어회사와 B타이어회사의 타이어 수명 평균 차이를 비교

            (3) Paired Sample t-test (대응표본 t검정)

                : 반복 측정된 샘플의 변화량에 유의미한 차이를 있는지 검정

                  전, 후 두번 측정된 수치의 차이를 가지고 검정 진행. (independent sample t-test와 방식이 다르다)

                  예) A 회사의 다이어트식품을 먹기 전과 먹은 후의 몸무게 차이 비교를 통한 효과 검정

 

2집단 평균 비교 방법 (※ 그림 출처 https://nittaku.tistory.com/467)

 

      2) ANOVA(분산분석)

        특징

           . ANalysis Of VAriance의 약자로서 분산을 활용한 검정이다.

           . 그룹은 범주형(Categorical) 변수이고, 측정치는 수치형 변수이다.

           . Factor(요인)가 2개이상이거나, 그룹이 3개 이상일 경우 사용한다. (t-test 사용 불가)

더보기

             * 그룹이 3개 이상 일때 t-test를 사용하면 안되는 이유

               이유는 1종오류 발생 가능성이 커지기 때문이다.

               그룹이 3개일 때 (t-test하고자) 2개 그룹씩 비교하면 3Combination2 즉, 총 3번 비교가 이루어지는데,

               유의수준을 5%로 잡았을때 Bonferroni에 의하면 1종오류 가능성이 Max 15%까지 커진다고 한다.

 

        가정

            . 정규성 (One Sample t-test, Independent Sample t-test, Paired Sample t-test)

              : shapiro-wilk normality test 또는 Normal Q-Q plot으로 확인한다.

            . 독립성 (One Way ANOVA, Two Way ANOVA)

              : 두 그룹(수준)은 서로 독립적이어야 한다.

            . 등분산성 (One Way ANOVA, Two Way ANOVA)

              : Bartlett's Test 또는 Levene's Test 로 등분산 검정 진행한다.

 

         종류

           (1) One Way ANOVA (일원 배치 분산분석)

               : 요인이 1개이고, 그룹(수준)이 3개 이상인 경우 각 그룹 간 유의한 차이가 있는지 검정한다.

                 그룹(수준)이 2개인 경우에도 사용 가능하지만, 이 경우는 t-test를 사용한다.

           (2) Repeated Measures ANOVA (반복측정 분산분석)

               : 요인이 1개이고 두번 이상 반복 측정된 샘플의 변화량에 유의미한 차이가 있는지 검정한다.

           (3) Two Way ANOVA (이원 배치 분산분석)

               : 요인이 2개인 경우 사용한다.

           (4) Two Way Repeated Measures ANOVA (이원 반복측정 분산분석)

               : 요인이 2개이고 두번 이상 반복 측정된 샘플의 변화량에 유의미한 차이가 있는지 검정한다.

 

        사후검정

            ANOVA검정은 차이가 있는 그룹이 있다는 것만 알려줄 뿐, 어떤 그룹들이 차이가 있는지는 알려주지 않는다.

            따라서 유의미한 차이가 있다고 나온 경우 사후검정을 통해 어떤 그룹 간에 차이가 있는지 확인해야한다.

            Duncan Test 또는 Tukey's Test 등을 활용하면 된다.

            ※ ANOVA 결과 차이가 없다고 나오면 사후검정은 필요없다.

 

3집단 평균 비교 (※ 그림 출처 https://nittaku.tistory.com/467)