데이터가치연구소 공식 블로그

데이터 표준화를 꼭 해야만 하는 이유

데이터 표준화 프로젝트를 수행하다 보면 데이터 표준화 교육을 요청하는 경우가 많습니다.
아마도 데이터 표준이 정말 필요한 것인지 공감대를 갖기 위한 것이겠지요.
그러면 데이터 표준화, 정말 필요한가요?

결론부터 말씀드리면 ‘필요하다’ 입니다.

그 이유를 다음의 세 가지 관점에서 설명하겠습니다.​


  • 개발 생산성이 올라갑니다.

데이터 표준이 있으면 개발 생산성이 올라간다고요???
네, 맞습니다!
데이터 표준이 있으면 개발 생산성이 올라갑니다.
많은 분들이 오해하는 부분입니다.
데이터 표준을 지키느라 개발이 늦어진다고 생각하기 때문입니다.
그런데 정말 늦어질까요?
저는 2000~2012년까지 개발자로 활동하였습니다.
13년간 Web(Front/Back-End), Client-Server Application 위주로 개발하였습니다.
개발자로 활동하던 대부분의 기간 동안 근무하던 기업에는 데이터 표준이 없었습니다.
테이블을 만들 때마다 매번 속성과 칼럼의 이름을 정하느라 많은 시간을 할애하였습니다.
데이터 표준이 없더라도 나름 의미 있게 속성과 칼럼의 이름을 정하고 싶었으니까요.

​만약 데이터 표준이 있었다면 어떨까요?
필요한 속성 명칭이 있다면 기존의 표준 속성 명칭을 그대로 써도 됩니다.
기존의 표준 속성 명칭이 없다면 기존의 단어 조합으로 새로운 속성 명칭을 만들면 됩니다.
참 쉽죠?^^
그러면 칼럼 명칭은요?
네, 이미 속성 명칭에 칼럼 명칭이 매핑돼 있으니 칼럼의 이름은 고민거리도 아닙니다!
혹시 데이터 표준에 대한 명확한 이해가 없는 분들이 계실까 봐 쉽게 예로 설명드립니다.​

속성의 이름을 ‘고객입금계좌번호’로 정하려고 합니다.
데이터 표준이 없다면 ‘고객입금계좌번호’를 칼럼명으로 만들기 위해 나름의 고민을 하겠지요?

고민의 결과는요? ‘CUST_DEPO_ACCT_NO’ !!!

그런데 이 칼럼명을 만드는 과정을 생각해 보시지요.
‘고객’은 보통 ‘CUSTOMER’라는 단어를 씁니다.
그래서 ‘CUST’의 약어를 만들었습니다.
‘입금’은요? 영어 사전을 찾아보면 ‘DEPOSIT’ 이라는 단어를 씁니다.
그래서 약어는 ‘DEPO’로 결정합니다.
이런 식으로 ‘계좌번호’는 ‘ACCOUNT NUMBER’를 줄여서 ‘ACCT_NO’로 만들었습니다.

데이터 표준이 없다면 매번 이런 작업을 해야 합니다.​

이번에는 데이터 표준이 있는 상황을 생각해 보겠습니다.
‘고객입금계좌번호’라는 속성명만 정하면 됩니다.
나머지는요? 네, 데이터 표준을 가져다 쓰면 됩니다.
‘고객입금계좌번호’를 ‘고객’ + ‘입금’ + ‘계좌’ + ‘번호’처럼 단어를 분석합니다.
누가 분석할까요? 데이터 표준을 관리하는 메타라는 도구가 그 일을 합니다.
분석으로만 끝나지 않습니다.
‘고객’, ‘입금’, ‘계좌’, ‘번호’에 해당하는 영문 약어까지 매핑합니다.
‘고객입금계좌번호’ 명칭만 만들었는데 ‘CUST_DEPO_ACCT_NO’가 자동으로 만들어집니다.
이해를 돕기 위해 해당 과정을 도식화하였습니다.


개발 생산성은요? 당연히 올라갑니다!

참고 글: 데이터 표준이란 무엇인가요?


  • 업무 이해도가 깊어집니다.

함께 일하는 사람들이 다양한 언어를 사용한다고 생각해 보십시오.
네팔어, 태국어, 중국어, 영어 등 서로 다른 언어로 일을 하면 어떨까요?
서로의 말을 이해하는 것조차 힘들 것입니다.
알아는 들은 것 같은데 제대로 이해한 건지 확신이 들까요?
데이터 표준이 없는 상태가 조금 과장하면 이와 같습니다.​

어느 정도 규모가 있는 기업이나 기관이라면 업무 담당자가 여럿입니다.
각자 맡은 업무를 위해 테이블을 만들고 개발을 합니다.
속성명과 칼럼명은요? 서로 다르게 만듭니다.
마치 각자의 언어로 말하는 것과 같습니다.
예를 들어, ‘고객’이라는 단어도 어떤 개발자는 ‘CUST’로 만들고 어떤 개발자는 ‘CST’로 만듭니다.
이렇게 ‘고객’이라는 단어를 다르게 표현합니다.
다른 사람이 만든 테이블을 참조할 때는 다시 한번 ‘확인’ 해야 올바로 참조했는지 확신이 듭니다.​

데이터 표준이 있다면 이러한 일을 발생하지 않습니다.
테이블의 칼럼 명칭은 모두 표준을 준수한 상태이므로 모두가 동일한 의미로 이해합니다.
이처럼 표준용어를 사용했을 때 명확한 의미를 전달합니다.​


  • 데이터 분석 비용이 낮아집니다.

데이터를 분석하려면 소스 확보가 우선입니다.
정보를 담고 있는 소스를 명확히 파악해야 의미 있는 분석을 할 수 있습니다.
표준화가 안되었다면 일단 대상의 칼럼에 대한 의미부터 파악해야 합니다.
의미가 파악되었다면 해당 의미를 반영한 명칭을 부여합니다.

이렇게 ‘의미 파악’ + ‘명칭 부여’에 소비되는 시간과 비용을 생각해 보십시오.
표준화가 된 상태라면 이러한 불필요한 ‘비용’을 아낄 수 있습니다.

거기에 ‘업무 이해도’ 입니다!


​많은 기업에서 표준화 프로젝트를 요청하는 이유도 그 필요성을 공감하기 때문입니다.
그러나 데이터 표준화를 한다고 위의 세 가지 이득을 무조건 얻는 것은 아닙니다.

아니, 표준화 프로젝트만 하면 무조건 개발 생산성도 올라가고, 업무 이해도도 깊어지고, 데이터 분석도 용이해지는 거 아닌가요???

적게는 수천만 원에서 많게는 수억까지 들여 표준화 프로젝트를 수행하는 데 당연히 그래야겠지요.
특히 공공기관은 매년 ‘공공데이터 품질관리 수준평가’를 위해 표준화에 많은 노력을 기울입니다.
하지만 현실은요??? ‘글쎄요’입니다!

다음 글에서는 어떻게 ‘돈값’ 하는 표준화 프로젝트를 할 수 있는지 다루겠습니다.

다음 글: 성공적인 공공데이터 표준화 프로젝트 위해 확인해야 할 사항

author avatar
데이터가치연구소 데이터가치플래너
『공공기관 표준화 전문』 대표 컨설턴트 허 상 철 |
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments