Ako začať s budovaním Data Warehouse (1)
Existujú dva základné prístupy k budovaniu data warehouse. Prvý prístup je označovaný termínom top-down, teda z vrchu nadol.
Top-down prístup chápe data warehouse ako východiskový bod celého analytického prostredia. Data warehouse obsahuje transakčné dáta (vo význame dáta s najnižšou granularitou) ktoré sú typicky zozbierané z viacerých zdrojov. Následne sú tieto dáta normalizované a integrované do podnikového dátového modelu. V ďalšom kroku je možné aplikovať na centrálny DWH operácie ako sumarizácia dát, dimenzionálne modelovanie a “distribúcia” dát do jedného alebo viacerých dátových skladov. Tieto podriadené dátové sklady sú závislé na centrálnom DWH pretože ich obsah je z centrálneho DWH odvodený.
Niekedy je vhodné ak sú dáta najskôr zozbierané a predspracované v dočasnej databáze, ktorá sa označuje pojmom “staging area”. Toto prechodné úložisko dát je vhodné predovšetkým vtedy ak je potrebné integrovať dáta z veľkého množstva zdrojov alebo je potrebné spracovať veľký objem dát kombinované s časovo závislými procesmi.
Hlavnou výhodou top-down prístupu je že poskytuje integrovanú a flexibilnú architektúru, ktorá umožňuje budovať a udržiavať naviazané analytické dátové objekty. Toto znamená že dátové úložisko predstavuje “bod prvého kontaktu” ešte pred tým sa dáta dostanú do dátových skladov, zabezpečuje konzistentnosť a štandardizáciu ktorá vedie k cieľu vybudovať “autoritatívny zdroj dát” (single version of the truth). Ďalšou výhodou je možnosť spracovať transakčné dáta v dátovom úložisku viacerými spôsobmi, tak aby spĺňali existujúce požiadavky a súčasne boli zdrojom pre nové a yatiaľ neimplementované požiadavky zo strany používateľov.
Dátové úložisko môže poskytovať zdrojové dáta pre štatistiky, slúžiť pri vytváraní prevádzkových reportov a súčastne umožňovať prevádzku tzv. “operational data stores” (ODS) úložísk a iných analytických aplikácií. Užívatelia môžu kedykoľvek vytvárať dopyty (queries) voči dátam v dátovom sklade ak je potrebné pracovať s dátami z viacerých oblastí (tzv. ad-hoc analýzy).
Jednou z nevýhod top-down prístupu je že takýto prístup vyžaduje dôkladnejšie plánovanie projektu, zvyčajne trvá dlhšie pokiaľ je možné verifikovať dáta a začať využívať výstupy a celkove sú náklady na projekt vyššie. V mnohom je tento prístup podobný tzv. waterfall metodológií používanej pri vývoji software. Dôvodom je že firmy musia vytvoriť dostatočne podrobný dátový model a súčastne vybudovať infraštruktúru ktorá dokáže zabezpečiť prevádzku všetkých vrstiev od staging area oblasti, cez centránlny dátový sklad až po jednotlivé data marty, skôr ako je možné začať vytvárať akékoľvek výstupy.
(Pozitívne je že často krát je možné vybudovať všetky tieto vrstvy v jednej databáze a následne prispôsobiť fyzickú infraštruktúru k požiadavkám na výkon a odozvu systému).