[펌] OLAP & DataWarehouse

프로그래밍/읽을거리 2008. 11. 26. 09:56 Posted by galad
DataWarehouse는 기업내의 의사결정을 지원해 주는 애플리케이션으로
정보제공을 위한 통합된 데이터 저장공간, 또는 의사결정지원과정에서 효과적으로 사용될 수 있도록 추출/변환/통합되고 요약된
읽기 전용데이터베이스를 가르킵니다.
데이타는 각 부서의 거래처리(TP: Transaction Processing)
시스템들에서 전달되어 통합되는데, 데이터는 날짜나 부서, 거래가 아니라 고객을 위주로 배열되며 보고서 작성기, 질의 도구, 데이타 검색 도구,
OLAP 서버, 기업정보시스템(EIS: Enterprise Information Systems) 등을 통해 유용한 정보를
만들어 냅니다. 즉 기업의 의사 결정 과정을 향상시켜주는 정보기술입니다.
DataWarehouse는 다양한 형태의 data를 포함하게 되는데, 이를 통해 특정 시점의 기업환경에 대하여 일관적으로 관찰할 수
있게 됩니다. 또한 업무 운영보다는 정보제공의 성격을 띠고 있습니다. 기업의 현업 실무자들이 주로 사용하는 OLTP 시스템과는 달리, 의사 결정권자들이
주로 사용합니다. 다시 말하면 OLTP 시스템이 업무 절차를 자동화시킨다면, DataWarehouse는 의사결정을
지원하는 것을 말합니다.
 
또한 별도의 하드웨어 플랫폼의 저장소를 말합니다. 데이터베이스의 개념과 비슷하지만 차이점은 이미 저장되어있는 데이터를 재가공, 추출하여
별도로 저장하는 곳이라 할 수가 있습니다. 즉 기업의 다른 시스템(보통 운영계 시스템이라 합니다.)으로부터 추출된 정보의 저장소를 가르킵니다.
 

이 지식은 삼성경제연구소에서 공유해주셨습니다.



출처 Think Alexandros the Great. Macedonia | 엔터프라
원본 http://blog.naver.com/edufuture/60021707433

OLAP : On-line Analysis Processing (온라인 분석 프로세싱)
 
분석과 관리 목적을 위해서 다차원데이터를 모으고, 관리하고, 프로세싱하고 표현하기위한, 응용프로그램 및 기술들의 종류


정리 요약되어있는 데이터를 유연한 방법으로 추출하는 방법론을 OLAP라고 한다.


대규모 데이터에 대한 실시간 분석처리. 정보시스템 사용자가 다차원 정보에 직접 접근하여 저장된 데이터를 추출, 가공하여 사용자의 질의어를 대화식으로 처리하고 추출된 정보를 분석하며 이를 의사결정에 활용하는 작업

 

 

===========================================================================================================

 

 DataWareHouse


지금은 Siebel의 사장님으로 계신 장동인씨가 한국 오라클 기술 본부 이사님으로 있을 때 지으신 책 중에 실무자를 위한 데이터 웨어하우스라는 책을 보면 이런 말이 있습니다.

내용을 그대로 옮겨보면....

데이터 웨어하우스란,
- 수년간의 (historical data)
- 기업의 운영계 시스템에서 생긴 내부 데이터와 (internal data)
- 외부 데이터를 (external data)
- 주제별로 통합하여 (subject-oriented)
- 별도의 프로그래밍 없이 (end-user computing)
- 즉시 (on - line)
- 여러 각도에서 분석을 가능케 하는 (mylti-dimensional analsys)
- 통합 시스템 (integrated system)이다.

.... 라고 설명하고 있습니다.

따라서 DW란 것은 고객에 편중된 것이 아닌 매출, 고객, 생산, 수주 등 기존의 운영계 시스템에서 발생하는 기업 내부의 데이터 및 경쟁사 정보, 인구 정보, 해외 정보 등 기업 외부의 데이터 까지 모두 통합되어 있는 시스템이라는 겁니다.

이런 개념은 오래전 부터 있어왔으나 실제 성능 및 가격에서 도저히 구축할 수 없는 가상의 시스템이었다가, 하드웨어의 성능 향상과 가격의 하락, 대용량 및 병렬 컴퓨팅을 지원하는 데이터 베이스의 개발로 DW는 본격적으로 막을 올리게 되었는데요..... 이는 이전에 존재하던 작은 규모의 데이터베이스 시스템들끼리 서로 통합을 할 수 있는 배경을 만들어준 셈이죠.

그러나 통합을 하기에 앞서 서로 다른 여러 데이터베이스 속에는 분명히 중복되는 데이터가 존재하기 마련이고, 불필요하거나 잘못 들어가있는 데이터들도 많다는 것입니다.
따라서 데이터 클렌징이라는 과정을 통해 데이터를 정제하는 작업을 필요로하게 됩니다.

데이터 웨어하우스를 구축하게 될때는 회사의 전략에 따라 얼마만큼의 범위를 어느 기간내에 만들어야 하며, 데이터 웨어하우즈의 위치는 어디에 둘 것이며(로드, 추출의 문제가 중요 안건이겠죠), 어떠한 모델로 얼마나 많은 사람들이 접근 할 것인가를 결정 해야 하며 이를 통해 데이터 웨어하우징의 범위를 결정하게 됩니다.

이때, 너무 성급한 목표, 전략 그리고 무엇을 어떻게 볼 것인가에 대한 자료의 정의가 필수적인데 이에 대한 해답을 외부에서 찾으려고 하거나 자신의 기준으로만 판단하는 경향이 강하기 때문에 DW 작업이 원활하게 이루어지지 않는 경우가 많습니다.

이를테면 구축 업체에게 모든 문제의 해결책의 제시를 요구하거나, 재촉을 한다던가, 계속되는 요구의 변화 및 확대, 요구사항 불이행, 확고하지 않은 의지 등은 큰 장애가 됩니다.

말이 너무 이상한 방향으로 흘렀는데요, 저는 데이터웨어하우스란 시간적 개념이 포함된 사용하기 쉬운 통합된 데이터베이스라고 정의하고 싶네요.
그리고 이 과정에 데이터 정제 작업이 들어간다고 말씀 드리고 싶습니다.