데이터 분석가가 되고 싶어 여러 데이터 분석 프로젝트, 공모전에 참가하였습니다.

대부분 공공 데이터를 사용한 공모전이었고 그래서 공공 데이터를 많이 사용해봤습니다.

공공에는 거의 모든 분야에 대한 데이터가 존재하였고, 선택한 주제에 맞게 찾아 쓰면 아주 쉽게 데이터 수집을 할 수 있었습니다.

하지만 공공에 공개되는 데이터이다보니 개인정보의 문제도 있고 대용량이다보니 관리가 어려운 면이 있어 품질이 좋지는 못하다고 느꼈습니다. 또한, 매년 지속적으로 갱신되는 데이터는 매년 기준이나 입력자가 다르면 입력 내용이 통일되지 못해 방대한 전처리 과정이 필요한 경우도 있었습니다.

이런 경우, 빠른 시간 내에 데이터를 분석하기 어렵고 그 결과 또한 좋지 못한 경우도 있었습니다.

그래서 저는 데이터 품질이 데이터 분석 이전에 해결되어야 할 문제임을 확실하게 느낄 수 있었습니다. 데이터 분석가가 된다면 이런 공공 데이터를 사용할 때 이 품질을 어떻게 향상시켜 사용할 수 있을지, 사내 데이터를 사용한다면 품질을 어떻게 관리하고 사용해야하는지 알아두어야함을 깨달았습니다.

그래서 데이터 품질을 공부하기 위해 선택한 책이 '데이터 품질의 비밀'입니다.이 책은 O'REILLY의 데이터 품질에 관한 첫번째 책이며 한빛미디어의 임프린트인 디코딩에서 새로 출간된 책으로 데이터 품질에 대한 최신의 내용을 만나볼 수 있습니다.

 

책의 목차를 참고하여 이 책에서 배울수 있는 것은 다음과 같습니다.

  • 데이터 품질이 중요한 이유
  • 데이터 품질을 고려한 데이터 시스템 구축
  • 데이터 수집·정제·변환·테스트 과정에서 데이터 품질 관리
  • 데이터 파이프라인 모니터링 및 이상 탐지를 통한 품질 관리
  • 데이터 신뢰성을 위한 아키텍처
  • 대규모 데이터의 품질 문제 해결
  • 엔드 투 엔트 데이터 계보 구축
  • 데이터 품질 민주화
  • 데이터 품질 관련 사례

 

 

책에는 이해를 돕기위한 실제 툴의 사진도 삽입되어 있었고, SQL문으로 작성한 쿼리를 통해 더 유용한 쿼릴르 작성하는 방법을 구체적으로 학습할 수 있었습니다.

 

또한, 데이터 품질 관리를 위해 팀이 함께 수행해야할 업무를 구체적으로 알려주며 회사에도 공유하면 좋을 내용들이었습니다.

 

데이터 품질이 정말 중요하다고 느껴 공부하기 위해 서평 이벤트에 참여하여 해당 책을 받기는 했지만 정말 많은 도움이 되었던 것 같습니다. 데이터 품질에 관한 O'REILLY의 첫번째 책이라는 점에서 책장에 하나 쯤 있어도 좋겠다는 소장 욕구가 생기기도 하고 두고두고 데이터 품질을 관리하기 위해 읽을 수 있는 책인 것 같습니다.

+ Recent posts