투존 튜키(John Tukey)와 그가 제안한 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는
현대 통계학의 패러다임을 바꾼 아주 중요한 개념입니다.
1. 존 튜키 (John W. Tukey)
미국의 전설적인 통계학자로, 우리가 일상적으로 쓰는 '비트(Bit)'와 '소프트웨어(Software)'라는 용어를 처음으로 만든 분이기도 합니다. 그는 통계학이 단순히 가설을 검정하고 수치를 계산하는 '수학의 하위 분야'가 아니라, 데이터 속에 숨겨진 이야기를 찾아내는 '탐색의 과정'이 되어야 한다고 믿었습니다.
2. EDA (탐색적 데이터 분석)란?
전통적인 통계학(확인적 데이터 분석, CDA)이 "내 가설이 맞나?"를 확인하는 과정이라면, EDA는 "데이터가 나에게 무슨 말을 하고 있나?"를 먼저 살펴보는 과정입니다.
- 핵심 철학: 가설을 세우기 전에 데이터를 다양한 각도에서 관찰하여 데이터의 구조, 이상치, 패턴을 파악하는 것입니다.
- 비유: 범인이 누구인지 미리 정해놓고 증거를 찾는 것이 아니라(CDA), 현장의 모든 단서를 샅샅이 뒤져 범인의 윤곽을 그려나가는 수사 과정(EDA)과 같습니다.
3. EDA의 대표적인 도구들
존 튜키는 복잡한 수식 없이도 데이터의 특징을 한눈에 볼 수 있는 직관적인 도구들을 많이 발명했습니다.
중등 수학 교육과정에서도 매우 중요하게 다뤄집니다.
- 상자 그림 (Box-and-Whisker Plot): 데이터의 오분위수(최솟값, 제1사분위수, 중앙값, 제3사분위수, 최대값)를 사용하여 분포와 이상치를 한눈에 보여줍니다.
- 줄기와 잎 그림 (Stem-and-Leaf Display): 데이터를 훼손하지 않으면서 빈도 분포를 시각화합니다.
- 저항성 통계량 (Resistant Statistics): 이상치(Outlier)에 민감하게 반응하는 평균 대신, 중앙값(Median)처럼 극단값에 영향을 덜 받는 척도를 강조했습니다.
4. EDA의 4대 핵심 요소 (4E)
서술형 근거로 활용하기 좋은 핵심 키워드입니다.
- 저항성(Effect of outliers): 소수의 이상치가 전체 분석을 왜곡하지 않도록 하는 것.
- 잔차(Residual) 분석: 데이터에서 주된 추세를 빼고 남은 '나머지'를 살펴 숨겨진 패턴 찾기.
- 재표현(Re-expression): 데이터를 로그나 제곱근 등으로 변환하여 분석하기 쉬운 형태로 만들기.
- 그래프를 통한 현시성(Exposure): 수치 요약보다 시각적 그래프를 통해 데이터의 특징을 드러내기.
*임용 시험이나 통계 교육 파트에서 "왜 평균보다 중앙값이 중요한가?" 혹은 "데이터 시각화의 목적은 무엇인가?"라는 질문이 나온다면, 바로 이 존 튜키의 EDA 철학이 그 정답의 뿌리가 됩니다.
학생들에게 "통계는 정답을 맞히는 산수가 아니라, 데이터라는 현장에서 단서를 찾는 탐정 놀이다"라고 설명해 주면 훨씬 흥미로워할 것 같습니다.
