本文接上篇淺談醫(yī)學大數據（上）。

數據分析框架（傳統(tǒng)數據分析框架，大數據分析框架）

醫(yī)療大數據有著前面第一節(jié)提到的所有特征。在醫(yī)療大數據帶來各種優(yōu)勢的同時，大數據隨之帶來的各種特性使得傳統(tǒng)的數據處理和數據分析方法及軟件捉襟見肘，問題多多。在大數據時代出現之前，受限于數據量的可獲得性和計算能力的有限性，傳統(tǒng)的數據管理和分析采用著不同的思路和流程。傳統(tǒng)上，對于問題的研究建立在假設的基礎上進行驗證，進而研究事物的相關因果性，希望能回答“為什么”。

而在大數據時代，海量數據的涌現提供了從不同角度更細致更全面觀察研究數據的可能，從而打開了人們的好奇心，探索欲望，人們想知道到數據告訴了我什么，而不僅僅是我的猜想是否被數據驗證了。人們越來越多地用大數據挖掘各種感興趣的關聯，非關聯等相關性，然后再進一步比較，分析，歸納，研究（“為什么”變成一個選項而不是唯一終極目標）。大數據與傳統(tǒng)數據思路上的不同導致了分析流程的不同，如圖一所示：

圖一

面對海量的數據和不同的分析思路，大數據的管理和分析與傳統(tǒng)數據分析的差異日益加大?；卮鹛囟▎栴}的單一預設結構化數據庫明顯不能完全勝任處理大數據的海量及混雜等問題。數據的混雜多樣性具體可以從一些調查數據中表現出來。SAS的一份調查報告顯示機構內的非結構化數據最多可以占到總數據量的85%，而這些非數字，非結構化的數據卻必須被量化分析和用到決策分析中 (Troester, 2012)。

另一份2013年進行的SAS調查報告顯示在461個提供完整反饋信息的機構中只有26%的機構表示他們所擁有的大數據是結構化的 (Russom, 2013)。此外，在機構中，分析的數據一般不會只有一個單一的來源。Alteryx的調查報告顯示在200家被調查的機構中只有6%的機構表示他們的數據是只有一個來源，最為普遍的情況是5-10個來源,具體分布如圖二 (Alteryx, 2014)。

調查中還顯示90%的被調查樣本表示有數據整合問題，37%表示需要等其他小組提供數據，30%表示不能得到他們想要的數據，一般估計是一個數據分析師的60%到80%的時間是花在數據處理準備階段上的 (Alteryx, 2014)。

圖二

由此可見有效的數據管理，數據庫建立及數據分析流程的重要性。傳統(tǒng)的數據管理的過程包括抽?。‥xtraction），轉換（Transformation）和載入（load）。通過ETL，可以賦予數據一種合適恰當的結構用于特定的分析發(fā)現。具體數據準備分析流程如圖三所示：1）抽取單個或多個來源的數據。2）凈化，格式化，標準化，聚合，添加，或遵循其他特定的數據處理規(guī)則。3）載入處理完的數據到特定的數據庫或儲存為特定的文件格式。4）采用各種方法進行數據分析。

圖三

ETL的中心內容仍舊適用于大數據，但由于大數據的大量性和多樣性對數據庫和數據管理及處理方法的要求越來越高，也越來越復雜，這樣線性處理整個數據變得相當耗費人力，物力，和時間。

此外，大數據的快速性，易變性也使得把數據儲存在單一的中央數據庫變的不太可行。在這種情況下，最流行的思路是把數據分割處理，也就是把數據儲存到多個儲存節(jié)點（比如網絡數據庫），在每個節(jié)點單獨處理數據（甚至處理完就接著進行初步分析,但處理的程度依客戶具體問題而調整），然后再匯總整合到一起，提供給單個或多個數據庫，接著根據需要選擇合適的分析方法獲取有用結果。ETL貫穿于整個大數據管理分析的流程中。圖四演示了大致的大數據管理分析流程及一些大數據處理分析平臺工具的名字。

圖四

SAS的數據倉庫研究院（TDWI）針對現今存在的大數據處理分析平臺工具進行了一項調查以幫助人們在選擇軟硬件進行大數據分析時能做出更好的決策。針對大數據技術，特點，和使用者操作，調查提供了三個選擇：1）現在使用中，并且會繼續(xù)使用。2）會在三年中開始使用。3）沒有計劃使用。圖五左側顯示了對于各種大數據分析平臺工具，被調查人員的回復比例。圖五的右側顯示了平臺工具可能的潛在成長和對采用此工具做出承諾的被調查人員比例。

圖五

根據潛在成長和承諾的綜合考量，此調查還進一步把大數據分析平臺,工具分成4組：第一組為適度的承諾，中度到強的成長潛力；第二組為中度至強有力的承諾，適度增長潛力；第三組為弱到中度的承諾，適度增長潛力；第四組為中度至強有力的承諾，弱增長潛力。圖六顯示了這些組別的內容分布。限于篇幅，本文不詳細介紹所列的每一平臺工具的具體內容，感興趣的讀者可以參考文獻獲取更詳細的介紹。

圖六

圖五和圖六都顯示了最流行的平臺和數據處理方式為開源免費的Hadoop和MapReduce。伴隨著他們的潛在成長和承諾程度，可以預見，Hadoop和MapReduce正在并會繼續(xù)推動和促進大數據的處理和應用。

在此，我們簡單介紹一下Hadoop和MapReduce的概念。Hadoop是一種基于Java的分散式數據處理框架。它可以提供對儲存在多個硬件設備上的數據進行高吞吐率的讀寫。更重要的是，它對大數據具有高容錯性和對并行應用程序的高可用性。Hadoop框架結構由若干名字節(jié)點（NameNode）和數據節(jié)點（DataNode）組成。一份數以萬計，百萬計的大數據文件會被分割成更小的文件信息塊儲存在多個數據節(jié)點里，可以是任何計算機硬件設備。

有關這些文件的數據屬性資料信息稱作metadata則被存儲在名字節(jié)點里（NameNode）. NameNode主要管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作記錄。Hadoop的框架結構如圖七：

圖七

當訪問和操作數據文件時，客戶端會聯系名字節(jié)點提取文件信息塊的屬性信息比如位置，文件名等。然后根據這些屬性信息，客戶端直接從相應的數據節(jié)點同時讀取數據塊。Hadoop本身具有冗余和復制功能，保證在單個硬件儲存設備出現故障時數據仍舊能被恢復而沒有任何損失，比如每個數據節(jié)點默認擁有3個備份之類。

此外，在有新數據節(jié)點添加到框架中時，Hadoop還可以自動平衡每個數據節(jié)點的數據載有量。同樣，名字節(jié)點也可以擁有冗余和復制功能，用于在單個儲存數據屬性信息的名字節(jié)點出現故障時可以恢復相應的數據屬性信息。

MapReduce則是一種可以用來并行處理大數據的編程模型。同一程序在Hadoop的框架下可以用各種不同的語言（Java,Ruby,Python等）按MapReduce的編程模型進行編寫和運行。其關鍵就在于三個詞： map,reduce, 和并行處理。我們通過一個例子來理解MapReduce的大致工作原理。比如我們有一30個字的字符串“開落花纏落花繞纏開繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”，任務是計算每個字出現的次數。

最簡單的方法是按序讀取每一個字建立標識索引并計算出現的次數值存入內存，如果是新字，值為1，如果是出現過的字則次數值累加上去。此種方式是按串行的方式進行的，所花的時間會隨著字符串的長度和復雜度程線性增長。當字符串是以萬計百萬計時，比如基因組數據，所花的時間將是相當驚人的。并行處理則能節(jié)約相當多的時間。

我們先把原文件分割到幾個小文件塊，然后對每個小文件塊進行字的標識索引和附加數值（這兒不進行累計，只是簡單的單次點數），然后再排序重組把相同字放在一起，然后我們再用縮減法計算出字及其相應的出現次數值。圖八顯示了具體的例子步驟：

圖八

分享本文至：

« 看看移動健康醫(yī)療界YC——Rock Health，41億美元都花在哪了？手機屏幕尺寸擴展是如何影響用戶體驗設計的 »

手机国产精品一区二区,另类第一页,亚欧在线,日韩一国产极品99热在线播放69_国产美女久久精品香蕉欧美_亚州中文无码aⅤ在线_免费国产v片在线

淺談醫(yī)學大數據（中）

淺談醫(yī)學大數據（中）

分類

日歷

鏈接

個人資料

存檔