ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터는 쌓는 것보다 분석 대상을 먼저 정해야 한다.
    Data Analysis 2023. 6. 21. 22:13

    전문가들은 데이터는 분석 대상과 목적을 먼저 정하고 데이터를 쌓아야 한다고 합니다. 그런데 현업에서 일하다보면 많은 분들이 데이터를 일단 쌓고 분석 대상을 나중에 생각하는 모습을 자주 목격할 수 있었습니다. 그래서 오늘은 '왜 데이터는 쌓는 것보다 분석 대상을 먼저 정해야 하는지'를 이야기하고자 합니다.

     

    1. 데이터는 많이 쌓는 것보다 필요한 것만 쌓아야 한다.

    과거에 PM(Product Manager) 팀 리더가 데이터 적재에 대한 업무를 요청했었습니다. 내용인즉, 모든 화면에 있는 요소(버튼, 텍스트, 페이지)에 대해서 모든 이벤트(클릭, 성공/실패, 이동, 마우스 오버 등)를 로그로 쌓아달라는 것이었습니다. 그래서 우선순위는 차치하더라도 업무의 목적과 효과에 대한 질의응답하는 과정에서 '모든 요소에 대한 모든 이벤트를 쌓았을때 이 많은 양의 데이터를 어디에 활용할 것인가?'라는 질문에 PM팀 리더는 '우리가 어떤 문제에 대한 가설을 검증할때 모든 이벤트에 대한 데이터를 일단 쌓아두면 나중에 분석이 쉬울것 같습니다. 지금은 데이터 분석할때 이벤트 로그가 부족합니다.'라고 답변했습니다. 그래서 저는 매일 적어도 수십만개의 로그가 쌓이는 데이터에 대한 시스템 비용(Storage, Network Traffic), 데이터 관리에 들어가는 PM 리소스, 개발 구현 리소스를 두고 논의 끝에 지금 당장 필요한 부분만 쌓는 것으로 마무리했습니다. 이는 데이터는 많으면 언젠가 쓸일이 있겠지라는 생각이 저변에 깔린 대표적인 사례입니다.

    요즘은 기술이 발전하면서 필요한 것만 쌓아도 엄청 큰(빅) 데이터가 되는 시대입니다. 빅데이터 시대라는 말은 데이터가 많은게 장땡이 아닙니다. 누군가의 생각이나 감으로 사업을 하는게 아니라 데이터를 기반으로 분석하고 결정할 수 있는 시대라는 의미로 해석합니다. 

     

    2. 분석 대상을 먼저 정하고 데이터를 쌓아야 한다.

    1과 중복된 내용일 수도 있습니다. 데이터는 어떤 목적으로 지표화해서 분석하고 트래킹할때 더욱더 가치가 있습니다. 빅데이터 시대에서 데이터는 21세기의 금에 비유되곤 합니다. 실리콘 밸리에서 데이터를 확보하기 위해서 기업을 인수했다는 이야기가 있을 정도로 데이터의 가치는 높습니다. 가장 중요한 것은 데이터를 기반해서 얻은 통찰과 결정입니다. 그런데 간혹 데이터만 보고 있으면 통찰을 얻을 수 있다고 믿는 사람을 종종 볼 수 있습니다. 데이터 Grid만 보고 있으면 영화에서처럼 숫자들이 돋아 보이기 시작하면서 큰 깨달음을 얻는 일은 현실에서는 없습니다. 현실에선 매직아이일 뿐입니다. ㅎ 금이 광산에서 캔 금광석이 아닌 정제하고 가공한 금괴같은 제품일때 가치를 인정받는 것처럼 데이터도 목적을 가지고 지표로 가공해야 가치가 생기는 것입니다.

     

    3. 때에 따라 목적이 다른 데이터는 별도로 쌓아야 한다.

    쌓는 데이터를 무조건 일반화해서 하나에 모든 의미를 다 넣고 저장했을 경우 도메인 지식이 부족하거나 모르는 분석가들이 데이터를 봤을때 제대로 분석을 할 수 없습니다. 물론 Query를 통해서 지표를 별도로 산출할 수도 있습니다. 하지만 컬럼의 의미가 하나의 의미로만 설계되고 사용됐을 경우에는 명확하게 사용 가능하지만 그게 아니라면 장기적으로 오히려 엄청난 혼란을 야기할 수 있습니다.

    그래서 아예 지표가 다르거나 목적이 다르다면 유사한 데이터라도 데이터 저장소를 별도로 분리하는 것이 좋습니다. 스토리지 비용이나 개발 리소스에 대해서 다른 생각을 가질 수도 있습니다. 상황에 따라 옵션으로 생각하시면 좋겠습니다. Up to you!! 

     

    Thanks

    Hans

    'Data Analysis' 카테고리의 다른 글

    평균(Average)의 함정 - 편차  (0) 2023.06.02
Designed by Tistory.