<input id="qyui2"></input>
  • <menu id="qyui2"><input id="qyui2"></input></menu>
    <blockquote id="qyui2"></blockquote><samp id="qyui2"><blockquote id="qyui2"></blockquote></samp>
    <samp id="qyui2"><label id="qyui2"></label></samp>
  • 業界動態

    當前位置:首頁  工作動態  業界動態

    華為·云中蘇大|高校數據中臺建設中數據模型的設計與實現

    發布人:時間:2021-03-03瀏覽:16

    本文引用自《高校信息化應用》,2020-10-27,作者單位:蘇州大學信息化建設與管理中心。


         《高校信息化應用》公眾號近期推出“云中蘇大”專欄,由蘇州大學與華為聯合打造的“云中蘇大”是一個鏡像化、數字化、智能化的全新教育形態, 建設完成后將實現完全的數字化,即校園內人、景、物以及學術活動、文化生活等各方面的全息復制,在教學、科研、管理服務等領域實現智能化升級。專欄希望與讀者共同探索一種新的大學形態,為國內高校向全數字大學轉型提供可復制推廣的經驗。



    目前,國家和相關部門對教育信息化高度重視,先后出臺了多項政策和文件,要求加快教育信息化的發展步伐,高校信息化進入了快速發展期。

    2019年初,中共中央、國務院印發了《中國教育現代化2035》,重點部署了面向教育現代化的十大戰略任務。同時,以云計算、大數據、人工智能、移動互聯網和物聯網為代表的新技術不斷出現和成熟,IT逐步發展成為DT,這必將進一步推動高校信息化的發展。

    2015年,工業界首次出現了數據中臺的概念,核心思想是“大中臺,小前臺”和數據共享,在引導新業務發展上發揮了較大作用,并取得了明顯效果。隨后,國內許多廠家以及企事業單位在各個領域開始建設數據中臺,以期進一步的創新和引領。

    在此背景下,數據也將會成為高校信息化的核心資產,并對高校信息化的快速發展起到關鍵的支撐作用。

    數據中臺是蘇州大學與華為技術有限公司合作的“云中大學”戰略的重要組成部分和數據底座,其數據存儲、集成、清洗、服務等組件在數據處理過程中提供了基礎的軟件支撐,為“云中大學”和未來的智慧校園應用提供強大的數據支撐和保障,從而實現了“數據支撐業務開展,業務開展帶來更多數據”的良性發展趨勢。

    在數據中臺的建設過程中,首先需要厘清高校擁有哪些數據,需要整合哪些數據,然后必須建立起一套完整實用的數據標準和數據模型,進行數據資產的管理和應用。

    數據模型和數據標準在數據中臺處于向上承接業務,向下引導數據的關鍵位置,它們是承載數據需求的元數據,是數據質量校驗的對象,是形成數據質量規則的基礎,也是數據集成與存儲的起點。

    通過數據模型的建設,由此發現源系統的數據質量問題并制定相關的流程,從而達到數據質量問題的收斂,這樣才能支撐高校業務功能的快速開發和實現。



    數據中臺

    數據中臺本質上是在新一代大數據、云計算、全鏈接、數據集成、數據建模、數據算法與分析等信息技術深度融合的推動下,構筑形成的數據底座,解決數據的“存”“通”“用”等難題。

    蘇州大學的數據中臺建設,著力解決了原有數據共享平臺存在的數據存儲方式受限、數據融合度不夠、難以適應未來發展趨勢等問題,特別是在信息化過程中的各種業務數據需求,例如對于未數字化業務的數據需求,對于業務數據靈活的融合需求,高度的數據一致性需求,唾手可得的數據查詢需求,以及多樣的數據分析需求等。

    蘇州大學的數據中臺架構如圖1所示,主要包含了數據采集、數據底座、數據服務和數據應用四大部分,其建設方案基于開放的大數據架構,并具備大數據資源的采集、存儲、分析計算、數據資源管理和服務的能力。


    1數據中臺的整體架構


    整個數據中臺通過DAYU、FusionInsight HDROMA三個平臺協作監控和管理。在數據采集過程中,DAYU平臺的FDI/MQS/DLF等組件和技術實現了對校內外批量定時數據和流式實時數據的批量集成和實時加載。

    數據湖(Data Lake)和MPPMassively Parallel Processing)數據庫是FusionInsight HD的重要組成部分,同時也是數據中臺的核心構件,它們共同為數據底座提供支撐和服務。ROMAAPI Connect則提供了基于API Marketplace的數據接口網關服務。

    因此,通過數據中臺構建靈活開放的大數據基礎設施和服務能力,數據資源在中臺內實現了統一存儲、管理和有效利用。同時,以此為依托,高校的數據資源整合共享和開放服務可以獲得極大的優化和提升。

    通過中臺的建設,逐步完善了校園數據資源的歸集整合,梳理形成了蘇州大學的信息資源目錄體系,并以此為依據全面開展數據共享工作,同時建設學校、學生、教學、科研、財務、資源與設備、辦公、外事、檔案等基礎庫。其中,數據模型和數據標準作用于整個數據中臺的生命周期,包括數據采集、數據湖、主題數據庫、專題數據庫和數據服務等,也是數據“存”“通”“用”的基礎。


    數據模型

    國際數據管理協會(DAMA)在DMBOK2中定義了11個數據管理的職能領域,其中,數據建模與設計是一個關鍵的領域,處于中心地位,而數據模型正是數據建模與設計的核心產出物。數據模型是數據特征的高度抽象,它從抽象層次上描述了業務系統的靜態特征、動態行為和約束條件,為數據中臺的信息表示與操作提供一個抽象的框架。


    數據模型的相關定義

    首先,我們給出基于數據中臺的數據建模中一些相關的定義,具體如下。

    主題域:在較高層次上對高校運轉活動中的基礎數據進行概況和分類,是對高校業務本質的高度抽象,也是高校數據模型的基礎。

    實體:實體是客觀存在并且可以互相區分的事物,可以是人或物,也可以是抽象的概念,如學生、老師、課程等都是實體。

    屬性:每個實體具有的特征稱為屬性,一個實體可以由若干屬性來描述,如學生的姓名、性別和專業等都是學生實體的屬性。

    關系:實體不是孤立存在的,實體之間是有聯系的。實體之間的聯系可以分為三類即一對一(1:1)、一對多(1:n)和多對多(m:n)。例如一位老師可以有多門課程,老師與課程的聯系就是一對多的;如果一位老師只有一門課程,則老師和課程的聯系就是一對一的。


    建設思路

    在數據中臺的建設過程中,我們特別開發了基于高校主題域的數據模型,其準備過程和建設思路包括了以下幾個方面。

    第一,充分調研目前的業務信息系統數據。在數據模型的實施過程中,重點調研了31個業務系統,在充分理解這些數據和對應業務的基礎上,對它們進行抽象和概括。

    第二,參照高等學校管理信息行標。通過參考該行標進一步了解高?;緮祿娜?,同時進行模型規范設計和數據標準設計。

    第三,參考其他行業的主題域模型設計。目前其他行業的主題域模型中,一般都有人員或當事人、機構、財務、資產、位置、產品或服務等,高校的主題域可以直接參考。另外,通過參考其他行業的主題域模型,我們發現主題域數量一般不會超過10個,例如在金融行業,IBM設計主題域為9個,Teradata設計的主題域為10個。

    第四,針對高校業務的特點,設計擁有高校特征的主題域。例如教學和科研等主題就是高校所特有的,通過這些主題域的設置,一方面能直觀地反映高校業務的特點,另一方面能很好地針對高校業務進行歸類。

    最終,通過精心設計,數據中臺包含了“8+1”個主題域數據模型,各個主題域的詳細描述如下。

    1)組織:學校的院系、班級、科研所/組、課題組、學術委員會、社團、行政、學術支撐、后勤等部門、校外贊助和合作機構等。

    2)人員:學生管理,教師和職工的人事管理等。例如基本信息、獎懲和補助信息、工作信息、績效考核等信息。

    3)教學:教學計劃、排課、學生選課、考試成績等信息。

    4)科研:科研的項目管理、科研成果及對外的學術交流等信息。

    5)財務:賬務、科目余額、收費、繳費、借款等信息。

    6)資產:資產的清單(教學、科研儀器等)及全生命周期管理。

    7)服務:招生、就業、食堂、宿舍、圖書館、網絡、,信息化、辦公等服務。

    8)位置:校區、建筑物、房間等信息、及其對應的地址等。

    9)公共:公共的維度和代碼等信息,如經過治理的與數據標準相關的代碼(包括國標、行標和校標)。


    除公共主題域模型外,其他主題域模型之間的關系如圖2所示。

    2主題域模型關系對照


    基于高校主題域的數據模型具有許多優良的特征,具體表現如下。

    一是對數據高度抽象的主題域模型非常穩定,如果按業務系統進行主題域劃分,隨著業務系統的增加,主題域會不斷增加,模型維護的工作量則會越來越多。

    二是很容易認清數據源頭,找到權威數據。業務系統重視流程,只關注本業務范圍的數據。同時各個業務系統之間可能會有數據交互或重合。數據中臺通過主題域模型,把來自各個業務系統的數據進行重新組織、標準化,方便了數據的使用。

    三是方便查看全景數據,例如要統計學生的信息,直接在人員主題下就可以找到相關的數據信息。不需要再到本科生教務、研究生、成教等系統中分別查找,提高了數據的使用效率。


    實現方法

    基于OLAP的系統上一般有以下三種建模方法。

    1)關系建模:通過實體關系(E-R)體現企事業單位經營活動的業務要素和業務規則,通過滿足3NF設計消除數據冗余。

    2)維度建模:主要思想是將客觀世界劃分為度量和上下文,按照維度表和事實表構建數據模型。

    3Data Vault建模:對業務對象、業務要素進行提煉,將業務主鍵與業務屬性分離,屬性放到衛星表(Satellites),業務主鍵放置到樞紐表(Hubs)。同時,業務主鍵之間的關聯或事件由連接表(Links)來構建,并通過衛星表來描述這種聯系。

    在傳統的數據倉庫上,公共基礎層的數據選擇關系建模的較多。這種模型的優點是消除數據冗余,節省空間,但是會對實體做原子拆分,導致在使用數據時會做很多的外部關聯,對具體的業務不友好。

    例如,來自學工系統的輔導員信息是一張寬表,如果按照關系建模,會被拆分成輔導員基本信息、輔導員聯系信息、輔導學歷信息等。

    由于數據中臺也承擔了數據的共享和交換功能,如果有其他業務系統需要學工系統中輔導員的原始信息,又需要對上述拆分的表進行合并,反而增加了ETL操作的復雜度。

    因此,在大數據項目上,一般采用維度建模,對數據進行歸類和整合,一般不對數據做原子拆分。在蘇州大學的數據中臺建設中,我們采取了基于數據湖和MPP數據庫的維度建模法,這樣模型的實施效率更高,同時也方便對數據進行理解、標準化和使用。


    對于相應的事實表和維度表的定義和劃分,具體規則如下。

    1)事實表,在業務活動中產生,一條記錄對應一個度量事件。在數據中臺中,主要有事務事實表和周期快照表兩類。事務事實表是交易過程產生事實表,如一卡通的交易流水、學生借書記錄等;周期快照事實表是一定周期內發生的事實,如學生的成績等。

    2)維度表,包括了參與事務的主體,如學生、教師、組織機構等,以及其他維度如時間、地區、代碼等。

    在數據中臺里,數據的核心處理部分包含了四個前后關聯的組件:數據貼源層、標準層、主題層和專題層。

    數據模型主要是在標準層和主題層中發揮相應的“向上承接業務,向下引導數據”作用,如圖3所示,示意圖中的箭頭為數據流的方向。


    3數據模型的實現層次


    向下引導數據”體現在從數據源到貼源層的ETL操作,“向上承接業務”規范了專題層的專題數據庫(即另一種的“業務庫”)建設,以及對應的數據應用和數據服務等。


    邏輯模型

    主題域命名規范按照主題域中文名字拼音的縮寫,對主題域進行編碼,然后在表名中加入主題域代碼,以區分該表是屬于哪一個主題域。

    邏輯數據模型基于數據中臺目前集成的共計38個系統、334張表、7790個字段進行設計,同時,為了模型良好的擴展性,特別對財務、資產和科研等主題域,參考行業數據和國標(《中華人民共和國教育行業標準-教育管理信息教育管理基礎信息》)進行邏輯模型設計。

    以高校組織主題為例,該主題域描述了組織的分類,以及對部分組織的考核等內容,該主題域的邏輯模型如圖4所示。其中,有關聯的部分都是一對多的關系。


    4組織主題域的邏輯模型


    在數據共享平臺的基礎上,高校數據中臺重新定義了數據戰略,通過DAYU、FusionInsight HDROMA平臺,以及對應的流處理、數據湖、MPP數據庫和API Connect等技術實現數據高質量的匯聚,承上啟下,縱觀全局,其構筑形成的數據底座,解決數據的“存”“通”“用”等難題,推動企事業單位的業務發展。

    數據建模在數據中臺中具有十分重要的意義,一方面可以識別數據的主從分布,對來自不同業務系統的數據標準化,提高數據的權威性和使用效率;另一方面它是數據治理的橋梁,通過梳理出高密度價值的數據,為數據治理框定范圍和提供指引,確保各種數據治理活動的高效展開。

    在具體的建設中,我們特別的采用高校主題域模型對中臺的數據進行建模,詳細設計了“8+1”個主題域數據模型,并通過基于MPP數據庫的維度建模方式,對每個模型進行了詳細的邏輯模型設計和實現,從而保障了整個數據中臺的建設。

    在蘇州大學數據中臺建成后近一年的試運行過程中,基于主題域的數據模型基本滿足了校內業務的數據需求,在優化數據管理的基礎上,通過包含數據中臺在內的一系列數據支撐平臺相互配合、多管齊下,共同支撐了整個學校的數據服務和數據開發。

    展望未來,隨著大量數據的共享、融合、分析和計算,也將進一步的提升和引導業務發展,從而助力良性的高校信息化發展新格局。



    光根电影院yy11111推荐,亚洲色自偷自拍另类,国产专区青青在线视频,少妇的诱惑