통계에서 DATA수집이 중요한 이유("통계의 미학" 1장) 내 밥줄

지금 읽고 있는 "통계의 미학"이라는 책의 내용이, 복잡한 수학공식이 난무하는 통계책이
아니라 초보자들도 쉽게 읽을 수 있는 책이고 앞으로도 도움이 될 수 있는 것 같아 간단하게 정리해 본다.

통계조사를 위한 작업을 시작할 때 가장 먼저 직면하는 질문이 아래의 질문이다.


"표본조사를 할 것이냐? 전수조사를 할 것이냐?"

일단 전수조사의 가장 큰 장점은 오차가 거의 없다는 장점이 있다.
하지만 위의 정의가 유효하기 위해서는 충분한 비용과 시간이 많이 든다.
그런데 비용과 시간이라는 부분에는 항상 들어가 있는 요소인 통제, 일관성이라는 속성이 따라가므로,
"모든 조사대상에게 동일하게 조사가 되어야 한다"라는 부분이라는 것을 좀 더 깊게 생각해 보면 쉬운것이
아닐것이라는 것을 쉽게 예상할 수 있다.(*전수조사의 대표적인 것은 인구주책총조사가 있다.)
*이런부분들에 대해서 간과하고 전수조사를 채택하거나, 통제하지 못할 정도의 많은 표본을 대상으로
 조사하면 오히려 더 큰 오류를 발생시킬 수도 있다. 대표적인 경우로 1936년 미국 대통령 선거 전 여론조사가
 거론된다.

통계학에서 보면 대부분의 상황에서 대수의 법칙(law of large numbers)이 적용되기 때문에 적절한 신뢰수준만
보장이 된다면 표본조사로서도 충분하다는 것이 통설이다.

자, 그럼 표본조사를 위해서 표본을 정하는 부분에 대해서 얘기해 보자.

<통계분석을 위한 DATA수집 및 분석시 중요한 factor>
1. 분석 목적과 목표가 명확해야 한다.
   목적이 명확해야 하고, 명확한 목적아래 구체적인 목표들이 설정될 수 있다. 이런 명확한
   목적과 목표를 가지고 제약사항들을 고려해야 해야 하고 할 수 있는 범위가 정확히 설정된다.

2. 표본의 대표성을 확인하기 위해서 면밀한 분석이 필요하다.
   표본의 대표성이 없으면 큰 오류가 발생한다. 예를 들어, 아래의 사항들이 최근 정치관련
   여론조사에서 크게 이슈가 되었던 내용이다. 모집단의 성격에 대한 면밀한 분석이 있지
   않고는 원하는 결과를 얻을 수 없다.
   -2002대선때 노무현, 정몽준 후보 단일화 여론조사 시간 쟁점
   (직업군, 나이별로 정치성향이 크게 차이가 남으로서 각 집군별 집에 있는 시간이 쟁점화 됨)
   -2007대선 한나라당 경선
   "누구를 지지하나?", "누구를 선호하나?"
   -1982년 1월 플레이보이지의 성에 대한 설문 조사
   "16세 이전 성경험이 있습니까?"
   *이것에 대한 결과로 여성이 58%, 남성이 38%의 응답이 나왔는데 이 결과를 가지고 여성이
    더 성에 대해서 개방적이다 얘기할 수 있는가? 이것은 플레이보이지를 읽는 독자층에 대한
    분석이 잘 되지 않았기 때문.

2. Noisy Minority를 경계하라.
   이 부분도 #2와 비슷한 내용이긴 하나, 사회현상적으로 Noise Minority가 Slient Majority를
   압도하는 현상이 증가하고 있기 때문에 좀 더 경계하여야 한다.

3. 무응답에 대한 고려
   조사도 사람이 하는 일이라, 적극적 의사 표현층은 조사하기가 쉬우나 그렇지 않는 사람들은
   조사가 힘들다. 그래서 조사원들의 편의주의에 의해서 조사결과가 왜곡될 수 있으므로 꼭,
   선정된 표본의 대표성을 건드릴 수 있는 무응답률에 대해서는 고민해야 한다.
   *여론조사시 나이드신 분들은 전화를 해서 조사원이 나이를 물어보고 나서 조사를 하지 않고
    끊는 경우가 있다고 한다. 이런 경우는 보통 나이가 드신 분들이 집에 있는 경우가 많기
    때문에 조사가 빨리 끝나고 젊은 사람들은 연결이 잘 안되어 응답률이 낮기 때문에 그것을
    채우기 위해서 이다.

4. 운영정의가 명확해야 한다.
   운영정의라고 하는 것은 무언가를 수행함에 있어서 영향이 있는 모든 factor들에 대해서
   목적과 목표에 맞게 상세한 정의를 내리는 것이다.
   -지난 2007년 2월 EBS수능강의의 활용률에 대한 EBS의 조사와 국회의원의 조사가 극명하게
    틀린 부분이 있었다. "EBS수능 강의를 활용하고 있는가?"라는 설문조사였는데...
    68% vs 11.3%였다. 운영정의에 있어서 "수능을 활용하고 있는 학생"이라는 운영정의가
    크게 틀렸기 때문이다.
   -임산부의 흡연으로 인한 기형아 출산의 위험에 대한 조사에서, "흡연하는 임산부"라는
    운영정의를 어떻게 내리냐에 따라서 엄청난 차이가 온다.

5. 측정의 일관성이 있어야 한다.
   "이럴땐 이렇고, 저럴땐 저렇고"라는 상황이 된다면 안된다.
   -음주 측정기의 측정오차에 대한 법원 판결
    3번의 음주측정시 0.072%, 0.035%, 0.05%가 나왔는데 이것의 편차가 심하여 신뢰할 수
    없다는 피고인의 요청이 법원에서 받아들여짐.
   -대학 논술 채점
    대학 논술의 경우 완전히 채점자의 상태나 주관에 따라서 점수가 천차만별일 수 있다.
    따라서 이런 부분을 해결하기 위해서 대학에서는 여러가지 대책들을 만들고 있다.


*중요한 개념들
CTQ(Critical To Quality)
SMART(Specific Measurable Attainable Relevant Time-bounded)

*DMAIC(Define Measure Analyze Improve Control)에 대해서 살짝 언급되는데 이것은 유명한
6sigma활동의 문제해결 과정을 말하는 것인데, 10여년 전에 6sigma관련해서 업무를 진행하게
되어 잠시 교육을 받았을 때 들었던 기억이 있다. 그때는 왜! 좀 더 열심히 하지 않았었을까? ㅠ.ㅠ


트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://dialup.egloos.com/tb/291361 [도움말]

덧글

덧글 입력 영역