데이터 직무로 들어가 첫 회의에 앉으면, 분명 한국어인데 절반은 못 알아듣는 경험을 하게 됩니다. ETL이 어쩌고, 웨어하우스가 저쩌고, 코호트가… 하지만 겁먹을 필요 없습니다. 이 용어들은 따로따로 외우는 게 아니라, '데이터가 저장되고 → 가공되고 → 분석되고 → 전달되는' 하나의 흐름 속에 위치를 잡아주면 훨씬 쉽게 들어옵니다. 아래 20개를 그 흐름 순서로 정리했습니다.
① 데이터 저장·구조
- 데이터베이스(DB): 데이터를 구조적으로 저장·관리하는 시스템. 모든 것의 출발점입니다.
- 데이터 웨어하우스(DW): 분석을 위해 잘 정제된 데이터를 한곳에 모아둔 대규모 저장소.
- 데이터 레이크: 정제 전의 원시 데이터까지 형식 가리지 않고 폭넓게 담아두는 저장소.
- 정규화: 데이터 중복을 줄이도록 테이블 구조를 나눠 정리하는 설계 원칙.
- 스키마: 데이터가 어떤 구조와 형식으로 저장되는지를 정의한 설계도.
② 데이터 가공
- ETL: 추출(Extract)·변환(Transform)·적재(Load). 원천 데이터를 분석 가능한 형태로 옮기는 과정.
- ELT: 먼저 적재한 뒤 필요할 때 변환하는 방식. 클라우드 데이터 웨어하우스에서 흔합니다.
- 전처리: 결측치·이상치 처리, 형식 통일 등 분석 전에 데이터를 깨끗이 다듬는 작업.
- 파이프라인: 데이터가 수집→가공→전달되는 흐름을 자동화한 것.
- 배치 / 스트리밍: 모아서 한 번에 처리하느냐(배치), 실시간으로 흘려보내느냐(스트리밍)의 차이.
③ 분석·지표
- 지표(Metric): 측정 가능한 핵심 숫자. 예: DAU(일간 활성 사용자), 전환율.
- KPI: 목표 달성 정도를 가늠하는 핵심 성과 지표. 수많은 지표 중 '가장 중요한 것'.
- A/B 테스트: 두 가지 안을 나눠 보여주고 어느 쪽이 효과적인지 검증하는 실험.
- 코호트 분석: 같은 시점·조건에 묶인 집단의 행동을 시간에 따라 추적하는 분석.
- 상관관계 ≠ 인과관계: 함께 움직인다고 한쪽이 원인인 건 아니라는, 분석의 가장 중요한 원칙.
④ 도구·시각화
- BI 도구: Tableau·Looker Studio처럼 데이터를 시각화하고 공유하는 도구.
- 대시보드: 핵심 지표들을 한 화면에 모아 한눈에 보게 만든 화면.
- pandas: 파이썬의 대표 데이터 분석 라이브러리. 표 형태 데이터를 다룹니다.
- 쿼리: 데이터베이스에 원하는 데이터를 요청하는 명령. 보통 SQL로 작성합니다.
- 차원 / 측정값: 분류의 기준이 되는 항목(차원, 예: 지역)과 그 수치(측정값, 예: 매출).
현업에서 자주 헷갈리는 짝꿍 용어
용어를 따로 외우면 비슷한 것끼리 자꾸 헷갈립니다. 자주 짝지어 나오는 것들을 한 번에 구분해 둘게요. 데이터 웨어하우스 vs 데이터 레이크: 웨어하우스는 '정제된 물건만 정리해 둔 창고', 레이크는 '원재료까지 다 모아둔 호수'라고 생각하면 쉽습니다. ETL vs ELT: 변환(T)을 적재(L) 전에 하느냐 후에 하느냐의 순서 차이입니다. 지표 vs KPI: 측정 가능한 모든 숫자가 지표라면, 그중 목표와 직결되는 가장 중요한 것이 KPI입니다. 정형 vs 비정형 데이터: 표처럼 행과 열로 깔끔히 정리되는 게 정형, 이미지·텍스트·영상처럼 그렇지 않은 게 비정형입니다.
이렇게 '무엇과 무엇이 어떻게 다른가'로 묶어 두면, 회의에서 비슷한 용어가 튀어나와도 당황하지 않게 됩니다. 처음에는 큰 줄기(저장·가공·분석·전달)만 잡고, 세부 용어는 마주칠 때마다 이 짝꿍 구도에 끼워 넣으면 됩니다.
한 문장으로 꿰는 데이터의 일생
용어 20개가 머릿속에서 따로 놀지 않게, 하나의 이야기로 꿰어 볼게요. 어느 쇼핑몰을 예로 들겠습니다. 고객이 상품을 클릭하고 구매하는 순간, 그 행동은 데이터베이스에 차곡차곡 기록됩니다. 이렇게 쌓인 원시 기록은 형식도 제각각이라 우선 데이터 레이크에 모입니다. 분석에 쓰려면 깨끗이 다듬어야 하니 전처리를 거치고, 추출·변환·적재하는 ETL 과정을 통해 잘 정리된 데이터 웨어하우스로 옮겨집니다.
이 모든 이동이 매일 사람 손 없이 자동으로 흐르도록 만든 것이 파이프라인이죠. 이제 분석가가 등장합니다. 웨어하우스에 쿼리를 날려 데이터를 꺼내고, 전환율 같은 지표를 계산합니다. 그중 회사가 가장 중요하게 보는 숫자가 KPI가 되고요. 새 추천 화면이 효과가 있는지 궁금하면 A/B 테스트를 돌리고, 특정 시기에 가입한 고객들이 잘 남는지는 코호트 분석으로 추적합니다.
마지막으로 이 결과를 혼자만 알고 있으면 의미가 없으니, BI 도구로 대시보드를 만들어 팀 전체가 한눈에 보게 합니다. 분석 중에 '광고비를 늘린 달에 매출도 늘었다'는 그래프를 보더라도 곧장 '광고가 매출을 올렸다'고 결론짓지 않는 것, 이게 바로 상관관계 ≠ 인과관계 원칙입니다. 어떤가요? 따로 외우던 용어들이 하나의 흐름으로 이어지면 훨씬 오래 기억에 남습니다.
용어, 이렇게 익히면 안 까먹는다
용어 암기의 함정은 '뜻은 외웠는데 막상 쓸 줄은 모르는' 상태입니다. 가장 좋은 방법은 새 용어를 만날 때마다 '이게 데이터 흐름의 어느 단계에 속하는지'를 스스로 묻는 것입니다. 예를 들어 '파이프라인'이라는 단어를 들으면 '아, 이건 가공·전달 단계의 자동화구나' 하고 위치를 잡는 거죠. 또 하나, 용어를 남에게 한 문장으로 설명할 수 있으면 진짜로 아는 겁니다. ETL을 '데이터를 꺼내서, 쓸 수 있게 바꿔서, 저장하는 과정'이라고 막힘없이 말할 수 있다면 그 용어는 이미 내 것이에요. 이 글의 20개도 그렇게, 하나씩 내 말로 바꿔보며 익혀 보세요.
한 가지 더. 회의나 문서에서 모르는 용어가 나왔다고 그때마다 대화를 멈추고 검색하느라 흐름을 놓치지 마세요. 일단 맥락으로 '대충 이 단계의 무언가구나' 하고 넘긴 뒤, 끝나고 이 글로 돌아와 정확히 확인하는 습관이 훨씬 효율적입니다. 결국 중요한 건 모든 용어를 완벽히 외우는 게 아니라, 데이터가 흐르는 큰 그림 속에서 각 용어가 어디쯤 자리하는지 감을 잡는 것입니다. 그 감만 생기면 새로운 용어가 나와도 두렵지 않고, 오히려 '아, 이건 그 단계의 변형이구나' 하며 스스로 위치를 찾게 됩니다. 처음 한두 달의 어색함만 견디면 데이터 용어는 생각보다 빠르게 익숙해집니다.
20개를 한 번에 외우려 하지 마세요. 글을 읽다 모르는 용어가 나올 때 이 페이지로 돌아와 확인하는 나만의 사전처럼 쓰면, 어느새 자연스럽게 익숙해집니다.
출처 · 참고
- 데이터 분야에서 통용되는 용어에 대한 일반적 정의