内射无码专区久久亚洲,最新影片內容支持电脑站视频 ,特级AV毛片一区二区三区1,亚洲欧美日韩自偷自拍

關(guān)于數(shù)據(jù)倉庫架構(gòu)及各組件方案選型!
  • 更新時間:2024-09-29 18:23:57
  • 數(shù)倉開發(fā)
  • 發(fā)布時間:2個月前
  • 186

?關(guān)于數(shù)據(jù)倉庫的概念、原理、建設(shè)方面,已經(jīng)有很多內(nèi)容和經(jīng)典書籍可以參考。在本文中,我更想討論企業(yè)數(shù)據(jù)倉庫項目中的架構(gòu)和組件工具問題。


數(shù)據(jù)倉庫可以被簡單地描述為通過數(shù)據(jù)集成工具連接原始數(shù)據(jù)和分析界面數(shù)據(jù)庫的存儲機制。它管理企業(yè)大量的數(shù)據(jù)集,提供轉(zhuǎn)換、移動和展現(xiàn)給終端用戶的功能。有許多方法可以擴展數(shù)據(jù)倉庫的能力,但我們將重點討論最基本的問題。在不考慮過多技術(shù)細(xì)節(jié)的情況下,整個架構(gòu)可以被分為4個層次:

1. 原始數(shù)據(jù)層(數(shù)據(jù)源)
2. 數(shù)據(jù)倉庫架構(gòu)形態(tài)
3. 數(shù)據(jù)的采集、收集、清洗和轉(zhuǎn)換
4. 應(yīng)用分析層

單層架構(gòu)(直連)

大多數(shù)情況下,數(shù)據(jù)倉庫是一個關(guān)系型數(shù)據(jù)庫,包含允許多維數(shù)據(jù)的模塊,或者分為多個易于訪問的多主題信息域。最簡單的數(shù)據(jù)倉庫只有一層架構(gòu)。

單層架構(gòu)意味著數(shù)據(jù)倉庫與分析接口直接連接,終端用戶可以直接查詢。但是簡單也意味著有其弊端和適用性:

傳統(tǒng)上,數(shù)據(jù)倉庫的存儲從100GB起,直接連接可能導(dǎo)致查詢速度慢,因為需要直接從數(shù)據(jù)倉庫準(zhǔn)確地查詢數(shù)據(jù),或者是準(zhǔn)確地輸入數(shù)據(jù),這對數(shù)據(jù)庫和前端BI工具的性能要求相當(dāng)高,基本性能不會太高。

此外,在處理復(fù)雜維度分析時,性能也受到限制,由于其緩慢性和不可預(yù)測性,很少應(yīng)用于大型數(shù)據(jù)平臺。要執(zhí)行高級數(shù)據(jù)查詢,數(shù)據(jù)倉庫應(yīng)該在低級實例下被擴展以簡化數(shù)據(jù)查詢。

兩層數(shù)據(jù)架構(gòu)(數(shù)據(jù)集市層)

兩層架構(gòu)是在前端應(yīng)用層和EDW層增加了數(shù)據(jù)集市層。數(shù)據(jù)集市是包含特定主題域信息的低級別存儲庫。簡而言之,它是一個在特定主題(例如銷售、運營、市場等)下延伸EDW的較小數(shù)據(jù)庫。

這種方式解決了部門級數(shù)據(jù)查詢和分析的問題,每個部門更容易訪問所需的數(shù)據(jù),因為每個集市僅包含給定域信息。此外,數(shù)據(jù)集市限制了終端用戶對數(shù)據(jù)的訪問范圍,并設(shè)置了數(shù)據(jù)權(quán)限控制。但是創(chuàng)建數(shù)據(jù)集市層需要額外的硬件資源,并與數(shù)據(jù)平臺的其他數(shù)據(jù)庫集成。




三層架構(gòu)(OLAP)

在數(shù)據(jù)集市層之上,我們通常會使用聯(lián)機分析(OLAP)處理多維數(shù)據(jù)集(cube)。OLAP數(shù)據(jù)集是一類特定數(shù)據(jù)庫,可以從多維度描述數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫只能表示二維數(shù)據(jù),而OLAP允許在多維度下編譯數(shù)據(jù)并在維度之間移動。

OLAP專門用于維度建模數(shù)據(jù)分析,并通過BI以圖表方式展示OLAP的結(jié)果。

OLAP的業(yè)務(wù)價值在于允許對數(shù)據(jù)進行多維度分析,以提供對所有企業(yè)數(shù)據(jù)或特定數(shù)據(jù)集市的訪問。現(xiàn)在,它已經(jīng)成為主流的架構(gòu)應(yīng)用。

以下是最廣泛使用的架構(gòu)體系結(jié)構(gòu)圖,由頂層、中層和底層組成。

底層:數(shù)據(jù)倉庫服務(wù)器的數(shù)據(jù)庫是底層,通常是一個關(guān)系型數(shù)據(jù)庫系統(tǒng),使用后端工具清潔、轉(zhuǎn)換和加載數(shù)據(jù)到該層。

中間層:數(shù)據(jù)倉庫中的中間層是使用ROLAP或MOLAP模型實現(xiàn)的OLAP服務(wù)器。對用戶來說,這個應(yīng)用程序?qū)语@示數(shù)據(jù)庫的抽象視圖,同時也充當(dāng)最終用戶和數(shù)據(jù)庫之間的中介。

頂層:頂層是前端應(yīng)用層,連接數(shù)據(jù)倉庫并從數(shù)據(jù)倉庫獲取數(shù)據(jù)或通過API獲取數(shù)據(jù)。常見的應(yīng)用包括數(shù)據(jù)查詢、報表制作、BI數(shù)據(jù)分析、數(shù)據(jù)挖掘和其他應(yīng)用開發(fā)。

根據(jù)功能應(yīng)用和技術(shù)架構(gòu),下面是一張中大型企業(yè)的詳細(xì)數(shù)據(jù)倉庫架構(gòu)圖。

數(shù)據(jù)倉庫的四個核心組件是:底層源數(shù)據(jù)庫(數(shù)據(jù)存儲方案)、ETL、前端應(yīng)用和OLAP服務(wù)。
數(shù)據(jù)倉庫數(shù)據(jù)庫

底層的數(shù)據(jù)倉庫服務(wù)器通常是一個關(guān)系數(shù)據(jù)庫系統(tǒng)(各種表關(guān)聯(lián)的SQL統(tǒng)計會更方便一些,非關(guān)系型數(shù)據(jù)庫在這方面還有所區(qū)別)。常用的方案有Oracle、DB2、SQLServer以及Essbase、Greenplum、Teradata等專業(yè)數(shù)據(jù)倉庫解決方案。
1. 采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫或經(jīng)過功能擴展的MPP數(shù)據(jù)庫

- 傳統(tǒng)的關(guān)系型數(shù)據(jù)庫包括:Oracle、MySQL、DB2。
- 大規(guī)模并行處理數(shù)據(jù)庫包括:Vertica、Teradata(商業(yè))、Greenplum(開源)。

Teradata在銀行業(yè)使用較多,但成本也比較高。我們目前在項目中主要使用Greenplum,它是業(yè)界最快且性價比最高的高端數(shù)據(jù)倉庫解決方案。Greenplum基于PostgreSQL,在2015年開源。國內(nèi)四大行中有3家在使用,5大物流公司中有4家在使用。很多公司正從Teradata遷移到Greenplum。

2. 大數(shù)據(jù)平臺架構(gòu):Hadoop+Hive

這個方案非常通用,通常的組合是:TB級數(shù)據(jù)使用PostgreSQL,百TB級數(shù)據(jù)使用Greenplum,PB級以上的數(shù)據(jù)使用Hadoop。

下面是一個傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)、Greenplum和Hadoop大數(shù)據(jù)平臺的對比圖。

我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!

本文章出于推來客官網(wǎng),轉(zhuǎn)載請表明原文地址:https://www.tlkjt.com/sc/18438.html

在線客服

掃碼聯(lián)系客服

3985758

回到頂部