一、關于Dataphin(智能數(shù)據(jù)建設與治理)
Dataphin是阿里巴巴集團數(shù)據(jù)治理方法論基于內部實踐的產(chǎn)品化輸出,致力于幫助各企業(yè)用中臺方法論治理企業(yè)級好數(shù)據(jù),構建起質量可靠、消費便捷、生產(chǎn)安全經(jīng)濟的企業(yè)級數(shù)據(jù)中臺。
Dataphin支持在多種大數(shù)據(jù)架構之上構建數(shù)據(jù)中臺,具備一站式數(shù)據(jù)采、建、管、用全生命周期管理能力,顯著提升數(shù)據(jù)治理水平,在計算引擎利舊降本基礎上滿足企業(yè)多元化數(shù)智應用需求,為企業(yè)上云用數(shù)賦智夯實數(shù)字化能力底座。
二、DataphinV3.6版本概覽
01-拓展多引擎、多類型數(shù)據(jù)源、多消息渠道,滿足企業(yè)多元化數(shù)智應用需求
ADB引擎適配:新增適配以AnalyticDB for PostgreSQL作為計算引擎,可支持數(shù)據(jù)集成、離線&實時數(shù)據(jù)研發(fā)、數(shù)據(jù)質量、資產(chǎn)安全、數(shù)據(jù)服務等功能,助力企業(yè)構建統(tǒng)一的數(shù)據(jù)倉庫平臺。
數(shù)據(jù)源拓展:新增支持達夢數(shù)據(jù)源可用于離線集成、提升對國產(chǎn)數(shù)據(jù)庫的支持度;Hive及HDFS的數(shù)據(jù)源增加EMR版本選擇,實時集成輸出組件新增支持Hive,增強對Hive數(shù)據(jù)源的適配度。
自定義消息渠道:支持自定義消息發(fā)送渠道,通過配置化的方式實現(xiàn)與阿里云電話&短信、企業(yè)自有消息渠道的對接,以接收任務監(jiān)控、質量監(jiān)控、數(shù)據(jù)服務監(jiān)控等告警信息。
02-貫穿事前規(guī)劃、事中監(jiān)控、事后稽核的全鏈路數(shù)據(jù)治理能力
概念建模:可視化定義基于實際業(yè)務場景抽象出的業(yè)務實體及關系,以更好地反映業(yè)務之間的聯(lián)系,并為邏輯模型建設提供依據(jù)。
智能基線監(jiān)控:支持配置天基線,添加需要保障的關鍵任務或字段后,系統(tǒng)可基于依賴關系自動圈選需要納入監(jiān)控范圍的任務,同時支持配置靈活的告警規(guī)則及接收方式,以降低人工運維成本。
全域數(shù)據(jù)質量:拓展支持針對多種數(shù)據(jù)源表的質量監(jiān)控,內置豐富的質量規(guī)則模板,同時支持基于業(yè)務場景自定義監(jiān)控規(guī)則,以提升配置靈活性和業(yè)務監(jiān)控覆蓋面。
數(shù)據(jù)標準落標:新增支持批量導入數(shù)據(jù)標準,提升配置效率;支持基于標準屬性和字段元數(shù)據(jù)進行關聯(lián)映射配置,實現(xiàn)標準和資產(chǎn)的關聯(lián),作為后續(xù)落標稽核的基礎。
03-研發(fā)體驗優(yōu)化,加速企業(yè)數(shù)字能力建設
編輯器優(yōu)化:優(yōu)化報錯提示,可快速定位到錯誤代碼行并提示錯誤原因及修復建議;新增set參數(shù)提示,可查看參數(shù)的默認值、類型及說明,提升數(shù)據(jù)開發(fā)效率。
集成組件優(yōu)化:Orcale組件適配特殊字符的處理以減少運行報錯,hologres組件支持填寫SQL準備及完成語句,hana組件支持小寫表名等,降低集成任務配置成本。
補數(shù)據(jù)優(yōu)化:支持一鍵過濾下游暫停調度的任務極其全部下游,以保障補數(shù)據(jù)整體鏈路可正常執(zhí)行,減少人工篩選成本。
脫敏方式拓展:支持配置底層查詢直接過敏或僅展示脫敏,以支持簡單的where/join等子查詢場景,對業(yè)務使用更友好。
三、新版本重點特性詳解及應用場景示例
特性1:基礎研發(fā)版支持AnalyticDB PostgreSQL計算引擎
應用場景:構筑可線性擴展的企業(yè)數(shù)據(jù)倉庫服務,加速企業(yè)數(shù)據(jù)分析和運營體系搭建
AnalyticDB PostgreSQL強兼容PG/Greenplum開源生態(tài),兼容Oracle/TD語法生態(tài),具備秒級彈性和數(shù)據(jù)共享等國內領先的產(chǎn)品能力;支持復雜SQL優(yōu)化、海量數(shù)據(jù)關聯(lián)聚合、資源負載管理,可提供PB級企業(yè)數(shù)據(jù)分析服務。
Dataphin基礎研發(fā)版支持以AnalyticDB PostgreSQL作為計算引擎,用戶現(xiàn)有的OLTP數(shù)據(jù)庫實例,如RDS MySQL,PostgreSQL,或傳統(tǒng)數(shù)據(jù)庫實例 Oracle,SQL Server等,均可以通過Dataphin的數(shù)據(jù)集成和調度能力同步到AnalyticDB PostgreSQL;結合數(shù)據(jù)質量監(jiān)控、安全分類分級及脫敏配置等功能,打通入庫、清洗、分析和洞察的全鏈路,助力企業(yè)構建統(tǒng)一的數(shù)據(jù)倉庫平臺,加速面向業(yè)務場景的數(shù)據(jù)分析和運營體系搭建。
特性2:概念建模
應用場景: 可視化定義基于實際業(yè)務場景抽象出的業(yè)務實體及關系,為邏輯模型建設提供依據(jù)
主題域層級從1級拓展到最多5級,企業(yè)可基于主題域更好的構建資產(chǎn)類目體系,實現(xiàn)數(shù)據(jù)分層管理。
新增概念建模能力,在數(shù)倉規(guī)劃及數(shù)據(jù)架構設計階段,支持可視化配置基于實際業(yè)務場景抽象出的業(yè)務實體及其之間的關系,并以實體關系流程圖的形式直觀展示,有利于數(shù)據(jù)消費者更好理解數(shù)據(jù)和數(shù)據(jù)對應的業(yè)務。如制造業(yè)中的“原材料采購”場景,可以抽象出“客戶、訂單、原材料商品、地址”等業(yè)務對象,以及“供應商詢價、下采購單、財務預付款、供應商發(fā)貨、到貨簽收、財務付尾款”等業(yè)務活動。
此外,業(yè)務實體間的關系類型,在原有關聯(lián), 繼承, 層級的基礎之上, 新增前后序、流轉、包含關系, 以便更精確的反映真實業(yè)務聯(lián)系。如:“采購”流程包含“供應商發(fā)貨”和“到貨簽收”兩個事件,兩個事件之間是流轉關系,而“采購”是“供應商評審”的后續(xù)流程。
概念模型創(chuàng)建完成后,可基于定義的業(yè)務實體快速創(chuàng)建對應的邏輯表,默認繼承實體之間的關系并自動翻譯為數(shù)據(jù)表之間的關聯(lián)邏輯,實現(xiàn)概念模型和邏輯模型的映射,為模型開發(fā)提供業(yè)務輸入和指導。
特性3:基線運維
應用場景:保障核心業(yè)務數(shù)據(jù)的產(chǎn)出任務,及時發(fā)現(xiàn)異常并預警,降低對業(yè)務用數(shù)的影響
1、添加需要保障的任務或字段后,系統(tǒng)將基于依賴關系自動推算需要納入監(jiān)控范圍的上游節(jié)點,降低人工配置成本。
配置時只需要關注需要保障產(chǎn)出及時性的核心業(yè)務數(shù)據(jù)對應的任務或字段即可,而無需關心整體依賴鏈路的上游節(jié)點,系統(tǒng)將基于任務之間的依賴關系自動推導計算需要納入監(jiān)控范圍的節(jié)點。這樣一來,即使更新了任務依賴關系,也無需更新基線配置,大大降低了人工操作成本;同時也提升了監(jiān)控準確性,避免因為配置不同步而導致的監(jiān)控缺失。
2、可自定義配置基線整體的預警及破線告警、基線監(jiān)控范圍內單個節(jié)點的運行出錯或變慢告警,便于及時發(fā)現(xiàn)異常并處理。
可以將需要保障數(shù)據(jù)的預計產(chǎn)出時間配置為基線的“保障時間”;同時可以根據(jù)任務復雜度和業(yè)務重要程度,預估任務運行出現(xiàn)異??赡苄枰奶幚頃r間,將其配置為基線的“余量”,承諾時間-余量即為基線的預警時間。周期運行過程中,系統(tǒng)將根據(jù)基線鏈路上每個節(jié)點最近7天的歷史運行概況,推算保障節(jié)點的預計運行完成時間。如果推算出的時間晚于配置的預警及承諾時間,則會發(fā)送基線告警,給開發(fā)人員和業(yè)務人員對應的通知。
此外,還可以給基線鏈路上的單個任務或字段配置運行變慢或運行出錯的告警,便于盡早發(fā)現(xiàn)可能出現(xiàn)的異常并處理,保障業(yè)務數(shù)據(jù)能正常產(chǎn)出。
3、支持查看每條基線的運行詳情,如果存在預警或破線的風險,可自動識別定位到關鍵路徑上的關鍵實例,便于開發(fā)運維人員直接處理,減少人工分析定位。
特性4:數(shù)據(jù)標準
應用場景:支持標準和資產(chǎn)的映射關聯(lián),以作為質量稽核的參考,提升企業(yè)資產(chǎn)治理水平。
1、標準屬性配置優(yōu)化,支持批量導入數(shù)據(jù)標準,提升配置效率。
支持配置屬性字段的取值類型(自定義輸入、枚舉單選、枚舉多選)及取值約束,同時也可引用碼表作為枚舉取值來源,以增強標準定義的規(guī)范性。如,指標的“業(yè)務分類”屬性需要來源于企業(yè)的“業(yè)務系統(tǒng)”碼表、“字段長度”屬性的取值范圍需要限制在0~128字符等。
支持下載標準定義模板,并通過上傳Excel文件方式批量導入數(shù)據(jù)標準,實現(xiàn)歷史標準的批量遷移入庫。支持查看導入執(zhí)行日志;支持配置導入沖突處理策略;支持一鍵下載異常記錄及異常提示,以提升配置效率。
2、支持基于標準屬性和元數(shù)據(jù)字段進行關聯(lián)映射配置,實現(xiàn)標準和資產(chǎn)的關聯(lián),作為后續(xù)落標稽核的基礎。
支持將標準屬性和資產(chǎn)元數(shù)據(jù)進行關聯(lián)映射配置,實現(xiàn)標準和資產(chǎn)的關聯(lián)。可以在資產(chǎn)目錄查看字段及指標的落標映射結果,以便參考映射到的標準定義進行開發(fā),將數(shù)據(jù)治理前置到研發(fā)鏈路。針對不滿足關聯(lián)標準的資產(chǎn),可以盡早進行整改,提升企業(yè)整體數(shù)字能力建設的標準化成熟和資產(chǎn)的健康度。
3、支持碼表、詞根的定義及管理。
碼表可用于約束標準屬性字段的取值范圍,提升標準定義的準確性;詞根可作為數(shù)據(jù)表、字段等研發(fā)對象命名的參考依據(jù),提升研發(fā)規(guī)范性。
特性5:全域數(shù)據(jù)質量
應用場景:通過對全域數(shù)據(jù)表及數(shù)據(jù)源的監(jiān)控,將數(shù)據(jù)質量風險前置,進一步提升資產(chǎn)健康度。
1、支持計算引擎內及多種數(shù)據(jù)源表的質量監(jiān)控,支持數(shù)據(jù)源連通性及表結構異動性監(jiān)控。
數(shù)據(jù)質量模塊分為域內版和全域版。其中,域內版可以針對計算引擎內的物理表及字段,以及Dataphin特有的邏輯表、指標和實時元表進行質量監(jiān)控;同時還支持對已創(chuàng)建數(shù)據(jù)源的連通性以及監(jiān)控范圍內的表結構異動性進行監(jiān)控。全域版在支持計算引擎內物理表的基礎上,還支持10余種數(shù)據(jù)源的表監(jiān)控,如MySQL、Oracle、Hana等。結合使用全域版和域內版的功能,能夠拓展可監(jiān)控的資產(chǎn)對象類型,將數(shù)據(jù)質量風險前置,降低對后續(xù)研發(fā)鏈路的影響。
2、基于DAMA體系內置豐富的質量規(guī)則模板,開箱即用;可自定義監(jiān)控規(guī)則并支持配置規(guī)則觸發(fā)方式,以靈活適配多樣化的業(yè)務需求。
基于DAMA(國際數(shù)據(jù)資產(chǎn)管理協(xié)會)體系,Dataphin質量模塊內置完整性、唯一性、及時性、一致性、有效性、穩(wěn)定性6類場景的系統(tǒng)模版及規(guī)則,大大降低使用門檻;支持自定義SQL的方式創(chuàng)建規(guī)則模版,以靈活適配多樣性的業(yè)務需求。此外,支持配置靈活多樣的規(guī)則觸發(fā)條件,如定時觸發(fā)、代碼運行觸發(fā)、任務調度觸發(fā)等,可滿足不同的開發(fā)場景。
3、自動生成質量監(jiān)控報告,支持查看下載異常數(shù)據(jù),可作為質量整改的參考。
特性6:編輯器優(yōu)化
應用場景:優(yōu)化報錯及參數(shù)自動提示,提升開發(fā)效率和使用體驗。
1、報錯提示優(yōu)化:支持快速定位到錯誤代碼行并標識錯誤語句,提示錯誤原因及修復建議;可自動識別不規(guī)范的代碼語句,支持一鍵修復或忽略提醒。
2、支持set參數(shù)提示:提示可選的參數(shù),并支持查看參數(shù)的默認值、類型及說明;指定參數(shù)后,如有默認值或枚舉值,自動提示可選值。
特性7:實時集成支持增量同步到Hive
應用場景:實時增量從MySQL或Oracle抽取數(shù)據(jù)同步到Hive
支持批量在Hive目標庫自動建表,可自動為目標表添加系統(tǒng)附加字段;支持處理DDL,如新增表、刪除表、表結構變更等8種場景;提供預覽字段功能,可查看源表與目標表字段的差異對比,減少手動建表操作。支持智能檢查目標表規(guī)范性及可用性,針對異常結果給出告警、錯誤等不同等級的提示,將問題前置以降低任務運行錯誤的可能性。
此外,新增實時集成任務的提交詳情,異常及風險提示一目了然,校驗流程透明化。
特性8:離線集成組件優(yōu)化
應用場景:適配多種數(shù)據(jù)源的特殊邏輯及異常處理,提升集成任務配置流暢度。
輸入組件,對PostgreSQL、AnalyticDB for PostgreSQL類型的數(shù)據(jù)源,在使用QuerySQL方式時,支持添加常量字段
Hana組件支持小寫表名
由于AnalyticDB for PostgreSQL僅支持在建表時指定分區(qū)字段,不支持后續(xù)添加,因此在整庫遷移目標數(shù)據(jù)源為AnalyticDB for PostgreSQL時,自動添加分區(qū)字段,以適配需要創(chuàng)建分區(qū)的場景
Hologres輸出組件支持填寫SQL準備語句和完成語句
優(yōu)化Oracle來源表帶有特殊字符(如/)時的處理策略,使離線管道任務能正常運行而無需使用自定義組件,降低配置成本
特性9:補數(shù)據(jù)支持過濾暫停節(jié)點
應用場景:批量選中多層節(jié)點進行補數(shù)據(jù),可一鍵過濾暫停節(jié)點,避免阻斷補數(shù)據(jù)任務執(zhí)行。
調度方式為“暫停調度”的任務,生成的補數(shù)據(jù)實例默認為暫停運行。暫停運行的節(jié)點會阻斷下游其他實例的運行,此外如果選擇了多個補數(shù)據(jù)業(yè)務日期且設置為周期間串行(即并發(fā)分租數(shù)為1),還會影響后續(xù)業(yè)務日期實例的執(zhí)行,阻斷整個補數(shù)據(jù)進程。
基于該背景,Dataphin新增支持在配置補數(shù)據(jù)任務時,可一鍵過濾暫停調度的任務極其下游節(jié)點。此外某些場景下,暫停調度的任務在補數(shù)據(jù)對應的業(yè)務日期下需要正常參與調度,如每月第一天運行的財務月結算任務,需要在指定的臨時結算日期運行。針對這種場景,新增支持配置選中的暫停任務在選中的補數(shù)據(jù)業(yè)務日期的運行方式,可選空跑、正常運行、暫停運行,以靈活適配多樣性的業(yè)務求。
特性10:脫敏規(guī)則支持配置脫敏方式
應用場景:通過配置查詢時不脫敏僅展示脫敏,以支持簡單的where/join等條件,對業(yè)務使用更友好
數(shù)據(jù)開發(fā)中,常常對一些敏感字段需要配置脫敏規(guī)則,以保障數(shù)據(jù)安全。默認情況下,在整個研發(fā)鏈路中,配置了脫敏規(guī)則的數(shù)據(jù)均使用脫敏后的結果參與計算,會導致where/join等條件不生效的問題,影響業(yè)務使用。基于此背景,Dataphin支持針對脫敏規(guī)則配置不同的脫敏方式:
底層脫敏:在數(shù)據(jù)被查詢時就進行脫敏。SQL的處理過程中,均使用脫敏后的結果處理,能對數(shù)據(jù)起到更好的保護效果
僅展示脫敏:在數(shù)據(jù)被查詢時不進行脫敏,僅在最后對外展示的時候進行脫敏。SQL處理過程中,均使用原文進行處理,因此可以支持簡單的where/join等條件,對業(yè)務使用更友好。需要注意的是,如果對敏感字段使用UDF處理(如字符串截取),會觸發(fā)脫敏降級,該字段生成的衍生字段會統(tǒng)一降級為***。
通過該能力,開發(fā)人員可以根據(jù)不同的使用場景配置不同的脫敏策略,以更好地適配業(yè)務需求,平衡好數(shù)據(jù)安全性和使用靈活性。
特性11:自定義消息渠道
應用場景:快讀對接阿里云電話/短信以及企業(yè)自有消息渠道,以獲取告警及消息通知
支持實例級別和租戶級別的自由配置,不同租戶可開啟不同的消息渠道。支持快速對接阿里云的電話及短信渠道,或經(jīng)過簡單的參數(shù)配置對接企業(yè)自由的消息渠道。配置完成后,支持發(fā)送測試消息,以快速驗證渠道可用性,保證消息可正常發(fā)送。
特性12:跨租戶發(fā)布配置優(yōu)化
應用場景:導入導出配置優(yōu)化,支持對接外部存儲系統(tǒng),發(fā)布流程更順暢
1、導出文件配置優(yōu)化:
新增可設置“是否導出建表語句”;如設置了導出,可在待發(fā)布對象列表下載建表文件
新增支持設置“是否運行下載發(fā)布文件”
新增支持發(fā)布文件外部存儲設置(本期支持啟用OSS存儲),可設置導出完成后“是否自動轉存外部存儲”,并支持設置同名文件沖突處理策略;若開啟外部存儲,待發(fā)布對象列表可一鍵轉存并查看轉存記錄
2、導入數(shù)據(jù)源校驗優(yōu)化:
按照“數(shù)據(jù)源名稱”進行匹配,如有名稱相同的數(shù)據(jù)源則校驗數(shù)據(jù)源類型,類型一致則認為在目標環(huán)境匹配成功
如果未匹配到同名數(shù)據(jù)源,僅提示風險,不阻斷發(fā)布(可能導致依賴對應數(shù)據(jù)源的任務發(fā)布失敗)
四、總結與展望
本次發(fā)布的V3.6版本中,Dataphin圍繞數(shù)據(jù)資產(chǎn)建設、數(shù)據(jù)資產(chǎn)治理、基礎平臺等三大功能板塊進行了完備性、安全性、研發(fā)效率、開放性、穩(wěn)定性、易用性、可交付性等方面進行了優(yōu)化和升級。在下一個版本中,我們將持續(xù)提升資產(chǎn)建設平臺的易用性及可交付性、資產(chǎn)治理平臺的完備性以及基本戶平臺的穩(wěn)定性和開放性進行迭代,敬請期待!
評論前必須登錄!
注冊