JeddiLee
作者
從數據中臺前世今生,看大數據“網紅”的多視角解讀
6364
2020-05-06 17:05    文章來源:微見Weidea
文章摘要:在談論數據中臺之前,不妨先看一下大數據的發展歷史

一、數據中臺從何而來

在談論數據中臺之前,不妨先看一下大數據的發展歷史

編年史 (1).jpeg

有跡可循的大數據思想萌芽,可追溯至1974年,當時有學者在論文中首次提出了“大數據集”的概念,但一直到1991年,Bill Inmon出版了《建立數據倉庫》一書,才真正算是在大數據領域有了被廣泛接受的“數據倉庫”定義。隨后,在20世紀初,數據處理量達到TB級的情況下,數據處理、展現應用于業務帶來的提升,學界的廣泛認同和商界的快速產品化,證明了數據倉庫的歷史意義與價值。

2003年,可以被認定是大數據的第一個重要里程碑,在這一年,Google公開了一系列其內部實踐的“海量數據”處理技術,也就是我們常說的Google三駕馬車——基于冗余存儲機制的分布式文件系統GFS、用于搜索索引計算的并行處理框架MapReduce、高效數據存儲模型BigTable,隨后便促進產生了大家更為熟知的分布式系統基礎架構——Hadoop。

后面的歷史便不多說了,本文的目的畢竟不是為了科普大數據,從大數據發展的編年史,也許能看出一些端倪,為什么數據中臺會在短短數年內從默默無聞到炙手可熱。從2011年開始,大數據的發展仿佛進入了高速公路,無論是國際知名組織,還是國家層面,都將大數據上升到戰略級地位。伴隨地位的提升,大數據領域的研究在廣度和深度上都不斷得到拓展,從早期以硬件、網絡為主的單一領域分類,擴展到平臺化及場景化的數據倉庫、元數據管理、主數據管理、數據質量、數據安全、數據科學等多元的領域分類。與此同時,數據倉庫的概念正在被外延——衍生出“大數據平臺”、“商業智能”以及“數據湖”的“邏輯數據倉庫”概念,數據處理量從TB級躍升至PB級,開源的Hadoop生態正式開始商業化,數據中臺在這個時期脫穎而出,也似乎并不突兀。

不過,無論是數據倉庫還是大數據平臺,商業智能還是數據湖,其發展似乎一直伴隨著一面看不見的墻,那便是關于大數據價值的探索。首先我們先看看在當時國內外大數據領域的主要玩家都在干什么。


國內主要大數據玩家 (1).jpeg

Amazon、Google、Microsoft、Oralce均在自身強勢業務之上,開啟商業化的云計算和大數據服務;Informatica聚焦大數據領域,推進其SAAS化的大數據產品及平臺;大數據新貴Palantir,則在其助力美國政府抓捕本拉登而一戰成名的大數據風控及其第三方數據服務上,不斷拓展數據應用的邊界;回到國內,阿里云、騰訊云、電信天翼云、華為云等均在云計算及大數據領域投入了大量人力和物力。在這個大數據發展的黃金期,幾乎所有的高科技企業都在思考一個問題:

海量數據作為大多數企業發展不可避免的一個趨勢之后,企業該怎么去應用這部分數據資產,會對其商業產生什么影響,如何使數據對企業產生正面的推動而不是成為企業的負擔。

作為國內的主要大數據玩家,阿里在2015年時提出了“大中臺、小前臺”的戰略,奠定了其內部發展數據中臺的基礎。其實這件事情毋需過多挑戰,國內有很多廠商懷疑數據中臺的價值或者認為其是“新瓶裝舊酒”,但作為阿里數據中臺內部建設和對外商業化的親歷者,筆者確實見識了阿里內部數據中臺對其生態帶來的巨大推動作用,也見到過其在對外做數據中臺商業化輸出時遇到的水土不服,為什么會產生這種現象,透過現象看本質,接下來我們就從多個角度來看。

二、數據中臺的多視角解讀

從去年甚至更早開始,很多企業,包括互聯網企業和傳統企業,開始紛紛的提數字化轉型并建設自己的中臺模式,那就帶來這樣一個問題,就是數據中臺該如何定義,或者說該怎么理解它,包括我也跟數十家企業的溝通交流過程中,聽到過他們很多這樣的困惑,比如說數據中臺它是不是一個數倉,或者數據湖,它究竟是一個技術體系,還是一個具象的產品或應用,有很多不同的理解。

我們可以先了解一下阿里對數據中臺的定義。

數據中臺是一套數據資產化和價值化體系。它致力于構建既“準”且“快”的“全”“統”“通”的“智能”大數據體系;它在數據賦能業務中形成業務模式,在推進數字化轉型中實現價值。

不難看出,阿里的數據中臺主要核心將其定位為數據資產化和數據價值化,那么阿里究竟是怎么做的呢?

阿里數據中臺全景 (1).jpeg

上圖是阿里數據中臺發展至今的一張全景圖,大家應該在云棲大會等多個場合有看到過這張圖。阿里數據中臺的整體核心其實是位于中間的三層數據中心:垂直數據中心、公共數據中心和萃取數據中心。

  • 垂直數據中心:阿里通過將包括淘寶、天貓、聚劃算、阿里媽媽廣告、優酷土豆、高德等來自不同BU的數據進行采集,在清洗和結構化處理后形成垂直數據中心

  • 公共數據中心:在垂直數據中心已采集數據作為原料的基礎之上,采用維度建模的方式,以業務過程作為粒度切分,處理成不因業務特別是組織架構變動而輕易推翻的數據中間層,由DWD明細層和DWS匯總層共同構成

  • 萃取數據中心:更進一步以客觀業務實體(如人、貨、場、企業等)為對象,圍繞其建立起以統計指標、標簽、關系等數據為主的數據體系,作為直接面向業務的萃取數據中心


僅從這三層數據中心構成的數據資產體系來看,阿里的架構似乎并無太多先進之處,除萃取數據中心外,垂直數據中心和公共數據中心都能在數倉建模中找到其對應的架構,即便是萃取數據中心,在一些企業的商業智能或者大數據平臺層面也能找到相應的雛形。所以,阿里數據中臺的核心競爭力究竟是什么呢?

答案就是——“方法論”

阿里在建設自身數據中臺的同時,花大精力對其數據架構、技術、流程、組織等實踐形成了一套完整的方法論,并作為其不斷迭代的指導性理論——OneData,其中包括OneModel(用于指導數據采集、數據建模、數據開發的規范性方法論)、OneID(用于指導打破部門墻的數據連通,在業務對象層面形成直接面向業務的數據體系規范性方法論)和OneService(用于指導如何提供數據服務,包括質量安全、資產管理、數據交換、組織協作等流程的規范性方法論)。

有了這套方法論,對于阿里來講,無論對其自身數據中臺建設,還是對外輸出解決方案,都提供了非常大的助力。

除了阿里,我們再看看其他企業是怎么做的。

典型數據中臺 (1).jpeg

無論是華為、OPPO為代表的高科技制造行業,還是網易、滴滴為代表的互聯網行業,都紛紛在自建或者提出了數據中臺的解決方案,但是我們又發現,每一家企業似乎對數據中臺都有自己不同的理解,這點從四家企業的數據中臺架構圖就可以看出。

看到這里,是不是大家對數據中臺的定義又更模糊了呢。接下來,我們站在企業用戶的角度,從三個維度分析企業理解的或者說想要的數據中臺到底是什么樣子的。

  1. 從管理視角看——為什么是數據中臺而不是數據XX

  2. 從技術視角看——數據中臺與數倉、數據湖到底有沒有本質區別

  3. 從業務視角看——企業需要什么樣子的數據中臺


1、從管理視角看——為什么是數據中臺而不是數據XX

站在企業用戶角度,尤其是中小企業老板,有一個非常關鍵的問題:“我到底需不需要數據中臺?”

當商務同學費盡心思約到了客戶老板,售前架構師熬了幾個通宵準備了長篇大論的介紹材料,產品技術準備數據和環境,搭建了完善的演示平臺,一切似乎都萬事俱備,但最后老板聽的昏昏欲睡,講完后拍拍手客套幾句,最后仍然不了了之。

相信很多toB的同學都遇到過吧,為什么會出現這種現象,因為絕大多數的企業老板(尤其是傳統企業)一般不會關心你講的是信息化還是云化,是大數據還是AI。但是正視威脅,業務競爭力的提升,以及通過機器長期吸納業務專家的經驗來優化人才結構,最終形成一個有競爭力的組織,這類戰略和組織的問題,老板一定關心。

很多老板都在喊數字化轉型,那么怎么轉,轉成什么樣?恐怕大多數的老板都回答不上來。

數字化企業模型 (1).jpeg


數字化企業是以客戶中心為基礎,以科技為引領,在統一愿景下建立了實時戰略機制和敏捷生態的生機型組織。

這段引用自ThoughtWorks對于數字化企業的定義,私以為非常準確,在當今互聯網時代,客戶是商業戰場的中心,而為了快速響應客戶需求,必須依靠平臺化的力量才可以事半功倍。尤其是隨著互聯網巨頭以平臺的方式對各行各業帶來的巨大影響,越來越多的企業主有了這樣的危機意識:“自家企業要么平臺化,要么成為平臺的一部分”。

那么如何使自己的企業能夠適應平臺化,在企業的數字化轉型中,客戶正在變得越來越重要,不斷快速響應、探索、挖掘客戶的需求,才是企業得以生存和持續發展的關鍵因素。當企業與客戶的觸點越來越多,可以利用的數據越來越豐富,傳統數倉或數據平臺無法整合和打通擁有如此復雜業務邏輯的數據;企業傳統的前臺+后臺的架構也已經無法做到對業務的快速響應;原有信息化系統與業務KPI脫節的現象也早已不能滿足數字化企業的管理需要。

數據中臺,在這個角度,正好與企業的需要不謀而合。

數據中臺是為前臺業務而生,它提供了一種數據與業務之間協作發生化學反應的最佳模式。數據中臺形成可共享復用的數據資產,并且擁有與業務更近的關系(一般情況下的數據中臺是要扛業務KPI的),讓企業首次有了數據驅動業務的能力,以及隨之帶來的對組織和人才結構的優化,這些才是數據中臺真正的競爭力。

數據中臺是買不來的,雖然說離不開各種自研或采購的工具平臺,但是,唯有管理者認識到,只有建立一個數字化、敏捷化,擁有快速業務響應能力的組織,才有資格進入這場戰爭;做到尊重客戶,不惜調整自己顛覆自己來響應客戶的企業,才能在這場以客戶為中心的商業戰爭中得以生存和發展;而擁有一個強大的,足以隨時快速和精準提供源源不斷彈藥的數據中臺,才有可能贏得這場戰爭。

如果一個企業主沒有認識到這一點,無論各大云計算或大數據廠商提供的產品多么智能,解決方案多么強大,都無法打通老板的心。

所以與其說是某某廠商提供了“數據中臺”,倒不如說是企業用戶自己命名了“數據中臺”。

2、從技術視角看——數據中臺與數倉、數據湖到底有沒有本質區別

特性傳統數倉數據湖數據中臺
數據結構化數據為主結構化數據、半結構化數據、非結構化數據結構化數據、半結構化數據
Schema設計在數據倉庫實施之前(Schema-on-write)寫入在分析時(Schema-on-read)設計以邏輯模型進行,在數據使用前寫入和處理數據(混合方式)
性價比較高存儲成本較低存儲成本較低存儲成本

數據

質量

可以作為重要事實依據的高度監管數據任何可以或無法進行監管的數據(如原始數據)以業務為導向,任何可控制、可計量、可變現的數據(數據資產)

數據

加工

處理

以SQL、UDF為主,按需加工,主要處理離線數據以SQL、UDF為主,按需加工,離線和實時數據均有以數據模型為主,通過產品工具自動化處理

數據

訪問

方式

通過標準化SQL或BI工具標準化SQL、BI工具或大數據分析工具標準化SQL、BI工具、大數據分析工具或者任何支持API對接方式的程序或系統

數據

資產

管理

數據

產品

開發

使用者

數據分析師數據分析師、數據開發人員和數據科學家等專業人員業務人員、專業人員

從技術視角看,數倉、數據湖和數據中臺的區別主要在于其數據加工處理、數據提供服務以及面向對象方面的改變。下面我們分別來看一下其之間的一些差異和對比。

先看數倉和數據中臺,20多年前,數據倉庫出現,當時主要是應用于大型商業企業,幫助其高管做分析和決策,其展現形式更多是以報表方式實現。傳統的數倉還是以TD,Oracle,IBM/DB2等傳統數據庫為主, 由于受限于數據的處理能力,很少有EDW的數據容量超過1TB。

傳統數倉的基本特性可以概括為是一個面向主題的、集成的、具有高度監管性的一體化的用于支持管理人員決策的數據集合。

而數據中臺首先在體系架構上與數倉就有很大的不同,數據中臺是由多系統組成的,其計算和存儲平臺是建立在分布式系統之上,以滿足不同業務需求和高并發高擴展性需求。除了計算和存儲平臺外,一般數據中臺還應包含數據集成、數據開發、數據建模、數據資產管理、數據治理以及數據服務等多個組件,通過多個維度組件形成一整套方案。

再看數據湖和數據中臺,數據湖的概念興起也是近幾年才出現,最早是在 2011 年由 Dan Woods 提出

數據湖是一個集中化存儲海量的、多個來源,多種類型數據,并可以對數據進行快速加工,分析的平臺,本質上是一套先進的企業數據架構。

數據湖的最初設計是為了作為數據倉庫的一個中轉區域,它的架構和理念是把原先不存儲的基礎數據也存儲起來,匯總各個數據源的數據方便以后的數據分析和查詢,因此數據湖是以數據的聚集、加工為目的數據資源池。當然后來的數據湖發展,也延伸出作為ETL和自助分析平臺為目的的數據湖,但是數據湖對比數據中臺仍有很多不足,比如說缺乏數據治理和元數據管理等。

不過,兩者更大的區別,還是在于其傳導的建設理念上,數據中臺強調方法論、組織和工具的建設,強調數據賦能業務,通過中臺模式更快更好的支持百花齊放的數據應用建設。

那么,數據中臺、數倉和數據湖究竟有沒有本質上的區別呢?

其實它們并不是一個類型和維度的概念,沒有直接的可比性,對于現在數據中臺的一些批評和質疑,其實在數據湖概念出來之時,也一樣有很多的質疑,感興趣的同學可以看一下這篇文章:"Are Data Lake Fake News?"。

說到底,三者都是為企業提供數據計算、存儲和應用的平臺,最終各種平臺的目的都是要更好地服務于業務。數據中臺概念的產生,正是源于企業用戶對于數據倉庫或數據湖更深層次的期望,企業用戶希望數據中臺距離業務更近,能更快速的響應業務需求和滿足業務應用。

3、從業務視角看——企業需要什么樣子的數據中臺

業務需求 (1).jpeg

通過企業數據中臺項目招標書,以及數據中臺研究報告,我將其中涉及業務需求部分,通過詞云熱度分析,可以看到企業對數據中臺建設的需求,主要是集中在以下幾個核心訴求上:

  • 業務價值

  • 數據服務

  • 部門壁壘

  • 生產力

  • 統一數據資產

  • 打通數據孤島

  • 業務場景

  • 賦能業務

  • 數據管理

  • 數據分析

  • 精準營銷

  • 智能算法


其中最常被提的便是提升業務價值、提供數據服務和打破部門壁壘,這也正代表了多數企業對數據中臺的真正需求:

  1. 提升業務價值,一家企業往往在其領域耕耘了數年甚至數十年,這些有成有敗的業務經驗,如何通過數據的方式來指導企業在未來的業務中正確決策。數據中臺通過企業全域數據的整合和打通,沉淀企業數據形成數據業務模型,展現形式也許并不是特別重要,無論單純的數據形式或者報表形式,業務的邏輯或者故事才是最重要的,讓數據真正成為業務的驅動力而不是冷冰冰的數字。

  2. 提供數據服務,企業希望通過數據中臺,來建立起統一的數據服務出口,避免數據口徑不一致在業務上導致的決策失誤,這個數據服務應該是多面手,既能讓不懂技術的業務人員能夠方便的通過數據服務獲取信息,也需要考慮到專業技術人員,滿足其在數據分析、挖掘、以及建設數據應用的需要。

  3. 打破部門壁壘,這個是每個企業都最為頭疼的難題了,大多數企業中,數據的產權是分布在不同的部門手里,擁有優質數據的部門不愿意分享,因為其認為別的部門數據對自己無甚助力,沒有優質數據的部門苦于無數據分享,但是卻是組織里最需數據共享的一方(先富帶動后富,看來不僅在社會制度層面,在企業層面也是一個大難題)。數據中臺在技術層面,通過數據資產中心的建立,首先對于各部門持有數據進行規范和治理,然后通過打通并對數據資產進行清晰的界定和量化,為管理提供了有效基礎去促進各部門數據之間的共享,然后,就要祭出數據中臺的核心——方法論,或者說是管理規范也好,通過協作、激勵、懲罰等多手段并用,來實現數據的共享共榮。


三、小結

可以解答最初的問題了,數據中臺究竟是什么,或者說企業想要的數據中臺究竟是什么樣子的。數據中臺不是技術體系,也不是一個具象的產品工具,它沒有標準化的架構,但是一個成功的數據中臺必然有其核心要素:

  • 數據中臺不是純粹的技術定義,應是管理+技術+業務的混合輸出

  • 數據中臺應該是數據資產的載體,提供基礎的計算和存儲平臺,使數據可存可查可復用可共享可變現

  • 數據中臺存儲的每一筆數據都理應有業務的價值,所以需要完善的數據治理體系對其進行規范和管理

  • 數據中臺應提供友好、自動化的工具來降低數據開發處理的門檻,讓業務專注于業務

  • 數據中臺的持續演進離不開數據運營,在數據資產管理層面需要為管理思路提供必要的基礎,如滿足ROI的衡量

  • 數據中臺作為統一的數據出口,應在數據服務及消費的方式上滿足多種需要,并有盡量優秀的查詢性能

  • 數據中臺對比平臺級系統建設更強調能力的輸出,應有支撐數據探索、數據應用開發、智能化算法的能力或服務

  • 數據中臺需要與之配套的跨業務和技術的組織以及人才結構,需要為業務主動提供數據服務而非被動的需求響應

  • 數據中臺需要指導方向的方法論,其建設和實施上不能再只是滿足建設起一套IT系統,搭建起指導方向和持續演進的方法論才能事半功倍


最后,別再糾結我需要不需要數據中臺,我建設的是不是數據中臺,或者數據中臺這個概念和名字了,你建,或者不建,它都在那里,不來不去。



版權聲明:

凡本網內容請注明來源:T媒體(http://www.279457.tw)”的所有原創作品,版權均屬于易信視界(北京)信息科技有限公司所有,未經本網書面授權,不得轉載、摘編或以其它方式使用上述作品。

本網書面授權使用作品的,應在授權范圍內使用,并按雙方協議注明作品來源。違反上述聲明者,易信視界(北京)信息科技有限公司將追究其相關法律責任。

評論

(^ω^)MG艺伎故事首页 安徽快三计划 炸金花10元入场 四人长春麻将小鸡飞蛋 青海体彩11选5 免费三肖必中特 大富翁棋牌官方网站 玩麻将提高胡牌的概率 欢乐捕鱼人官方正版 北京十一选五分布走势 福建22选5中奖规则 时时乐长龙提醒软件 天易棋牌斗地主 麻将都有什么玩法 捕鱼平台注册送20000分 百家乐代理 快三大小规律破解图