lastnamesong

[통계 이론] 연속 확률분포 (정규분포, 표준정규분포) 본문

Data Analysis

[통계 이론] 연속 확률분포 (정규분포, 표준정규분포)

응솩이 2025. 3. 1. 22:22
반응형

 

 

확률과 통계는 데이터 분석과 머신러닝의 근본이다. 그중에서도 연속 확률 분포는 현실 세계의 수많은 현상을 수학적으로 설명하는 강력한 도구이다. 이번 글에서는 연속 확률 분포 중 가장 기본이 되는 정규분포, 표준정규분포, 그리고 t분포, 카이제곱분포, F분포 같은 중요한 분포들을 살펴본다.


정규분포 (Normal Distribution)

사람들의 키, 시험 점수, 혈압 수치, 심지어 제품 수명의 길이까지, 현실에서 관찰되는 많은 데이터는 비슷한 모양을 가진다. 중앙에 데이터가 몰려 있고, 양쪽 끝으로 갈수록 점점 희박해지는 형태. 바로 정규분포다.

정규분포는 우연히 만들어지는 게 아니다. 수많은 독립적인 요인이 조금씩 영향을 끼친 결과물이기 때문이다. 사람의 키를 예로 들어보자. 유전, 식습관, 운동, 환경 등 다양한 요소가 독립적으로 영향을 준다. 이 독립적인 영향들이 쌓이면, 데이터는 자연스럽게 종 모양의 정규분포를 따른다.

정규분포함수의 다양한 형태들
정규분포함수의 다양한 형태들

정규분포는 평균을 중심으로 대칭이며, 평균에서 멀어질수록 확률이 낮아지는 분포이다.수식은 다음과 같다.

$$ f(x) = \dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

여기서 \( \mu \)는 평균으로 확률분포함수의 중심에 해당하고, \( \sigma \)는 표준편차로 확률분포함수가 얼마나 퍼져있는지를 알 수 있다.

 

실제 데이터를 수집해 히스토그램을 그리면, 상당수의 자연현상에서 이 종 모양의 패턴을 발견할 수 있다. 이처럼 정규분포는 빅데이터를 다루는 사람이 마주하게될 거의 대부분의 데이터를 설명한다고 할 수도 있다. 정규분포의 장점은 평균과 표준편차만으로 그 모양이 완벽히 결정된다는 점이다. 학생 때 많이 들어봤을 몇 시그마 이런 것들이 모두 정규분포에서 발생한 것이다.

 

그런데 위 그림처럼 여러개의 정규 분포가 있을 때, 이것들의 평균과 표준편차를 가지고 비교하는게 맞을까? 그리고 각 데이터에 대해서 평균으로부터 얼마만큼 떨어진 값의 비율을 알아내는 등의 통계적인 분석을 할 때 계산을 매번 어떻게 해야할까?

표준정규분포 (Standard Normal Distribution)

서로 다른 종류의 분포 데이터에 대해서 기준점과 단위를 통일시키면 이를 비교할 수 있을 것이다. 정규분포의 두 가지 변수인 평균과 표준편차를 비교 가능한 수준으로 만드는 것이다. 그 과정을 거친 확률 분포를 표준정규분포라 한다.

 

정규분포 데이터를 표준화하면 평균 0, 표준편차 1인 표준정규분포로 변환된다. 표준화 공식은 다음과 같다.

$$ Z = \dfrac{X - \mu}{\sigma}$$

\( X \)는 원래의 정규분포 확률변수, \( Z \)는 표준정규분포의 확률변수를 의미한다.

 

정규분포의 확률 변수가 평균이 0, 표준편차가 1로 바뀌었다. 이렇게 변환을 거치면 어떤 정규분포든 같은 축에서 비교할 수 있다.

표준정규분포를 통해 기존 정규분포에서 확률 계산을 수행할 수도 있다. 표준정규분포로 변환 후에 해당 변수에 해당하는 확률을 계산된 표를 이용해서 구하는 방식이다.

Standard Normal Distribution Table. 곡선 아래의 색칠된 면에 해당하는 확률을 알 수 있다. (출처: https://itfeature.com/)

예를 들어 평균 \( 160cm \), 표준편차 \( 5cm \)인 한 집단에서 키가 \( 170cm \)보다 클 확률을 구해보자.

 

1) 표준정규분포 확률변수로 변환: \( Z = \dfrac{170 - 169}{5} = 2 \)

2) 표준정규분포표에서 \( Z = 2.00 \)에 해당하는 누적확률 확인: 표에서2.00의 누적확률 약 0.9772 확인

3) 확률 계산: \( 170cm \)보다 클 확률은 \( 1 - 0.9772 = 0.0228 \), 즉 약 \( 2.28% \)이다.

기타 확률분포

앞서 정규분포가 수많은 현상을 설명하는 확률분포라고 설명했지만, 실제 데이터 분석을 수행할 때 여러 이유로 정규분포와 같은 모양이 나오지 않을 수도 있고, 구한 분산이 옳은 값이 아니게 될 수도 있다. 데이터를 보정하거나, 해당 확률분포를 검증하기 위해 사용되는 몇 가지 확률분포를 정리한다. 수학적인 정의는 생략하고 실제 어떤 부분에서 사용될 수 있는지를 위주로 정리했다.

t분포

데이터를 분석할 때 늘 넉넉한 표본이 있는 건 아니다. 특히 임상 시험처럼 비용과 시간이 많이 드는 경우, 적은 표본으로 결론을 내려야 하는 상황도 흔하다. 문제는 표본이 적을수록 표본평균이 흔들릴 가능성이 크다는 점이다. 이런 상황에서 정규분포를 그대로 적용하면 위험하다. 표본 수가 적은 상황에서, 이를 보정하는 분포가 있다면 믿을 수 있는 결과를 얻을 수 있을 것이다.

 

표본의 크기가 작을 때 사용하는 t분포는 정규분포보다 꼬리가 두껍다. 표본 크기에 따라 분포 형태가 변하며, 표본 크기가 커질수록 정규분포에 가까워진다. 작은 표본으로 두 그룹의 평균을 비교하는 t검정이 바로 t분포를 기반으로 한다. 데이터가 부족할수록 믿을 수 있는 결과를 얻기 어려워지지만, t분포 덕분에 적은 데이터에서도 통계적 신뢰도를 어느 정도 확보할 수 있다.

카이제곱 분포

제품 불량률이 5%라고 했는데, 실제로는 8%가 나왔다면? 이 차이가 우연인지, 아니면 무언가 문제가 있는지 판단할 필요가 있다. 범주형 데이터에서 관측된 값과 기대한 값이 얼마나 차이가 나는지를 분석할 때 등장하는 게 바로 카이제곱분포다.

카이제곱분포는 기대값과 관측값의 차이를 제곱해 누적한 값이 따르는 분포다. 이 분포를 이용하면, 예상과 실제가 얼마나 다른지를 수치로 나타내고, 그 차이가 단순한 우연인지 의미 있는 차이인지 판별할 수 있다. 제품 불량률 검정, 유전자 분포 분석, 고객 선호도 조사 등에서 널리 쓰인다.

데이터가 기대한 대로 나왔는지, 아니면 예상과 전혀 다르게 흐르고 있는지 판단하는 데 주로 사용된다.

F분포

두 공장의 생산 품질을 비교하려면 평균만 보면 될까? 품질이 균일한지도 중요한 판단 기준이다. 한쪽은 제품 크기가 일정하고, 다른 한쪽은 들쭉날쭉하다면, 분산의 차이를 확인해야 한다.

F분포는 두 집단의 분산 비율이 따르는 분포다. 두 집단의 분산을 비교할 때, 단순히 크고 작음을 넘어서, 그 차이가 통계적으로 유의한지를 확인하는 데 쓰인다. 특히 여러 그룹의 평균을 비교하는 분산분석(ANOVA)에서 핵심 역할을 한다.

데이터 분석에서는 평균만큼이나 분산도 중요한 정보다. F분포는 평균만 보고 지나칠 뻔한 데이터의 숨은 차이를 알 수 있는 도구이다.


연속 확률 분포는 현실에서 데이터를 다루는 모든 과정에 깊숙이 스며들어 있다. 정규분포와 표준정규분포는 기본 중의 기본이고, 표본이 적을 때의 t분포, 기대와 실제를 비교하는 카이제곱분포, 분산을 비교하는 F분포까지, 각각의 분포가 맡은 역할이 다르지만 결국 하나로 이어진다.

반응형

'Data Analysis' 카테고리의 다른 글

[통계 이론] 베이즈 정리  (0) 2025.02.16