別把「大數據」想得太難!100多年前的英國醫生,如何用資料科學防止霍亂擴散?
數位化數據分析
在AI、大數據當紅的近年,常有EMBA學生和業界朋友問我,他們時常看到或聽到,某跨國企業又利用「大數據」開發出新商機的新聞。這其中有些概念很有趣,也很實用,但整體而言,「大數據」對他們公司來說似乎還是抽像模糊、可望而不可及,想要運用卻不知該如何著手。大數據真的有那麼神嗎?公司所擁有的客戶或營業資料,算是大數據嗎?該如何有效地運用這些資料呢?
碰到這些問題,我總是請他們稍安勿躁,先靜下來想想:公司有哪些數據?累積多久了?資料格式大致如何?有專人負責維護或分析嗎?過去都拿數據做什麼用途?公司的決策多數倚靠經驗,還是數據?……
這一系列的提問,很適合拿來問大部份的公司,因為這些問題就是大數據的入門,而相關的數據也經常存在你我身邊,能否掌握這些數據資料,關係著公司的成長和未來。現在,且先聽我說幾則故事。
大數據的存在:俯拾皆是
「早上起床發現喉嚨痛,可能是昨天被隔壁感冒的同事傳染了。這兩天也一直聽到有人掛病號。這一波流感有什麼症狀?該去看哪位醫生?」念頭至此,習慣性地打開電腦,先向「谷歌」大神求診。
當你在Google「搜尋欄」打上「喉嚨痛」三個字時,其實你已經在幫谷歌大神產生大數據了。因為一個人喉嚨痛可能沒什麼,但如果同時段內,你居住的台北市也有一萬個人正在搜尋「喉嚨痛」時,你大概可以猜到:台北市的流行感冒已經是山雨欲來了。
這時候,如果將這一萬人用來搜尋的電腦位址,全部以「光點」方式套疊在GPS地圖上,又發現光點幾乎都集中在大安區,衛生單位是不是就可以初步研判─大安區極可能是這一波流行感冒的「熱區」?如果感冒疫情還沒開始流行肆虐,是否就能未雨綢繆地宣導、建議民眾在大安區的公共場所戴上口罩,防止病情擴散?
事實上,Google還真的透過大數據分析,對美國5,000萬個使用者常用的搜尋字串,以及2003~2008年間季節性流感的傳播資料進行比對,並透過機器學習的方式,發展出預測流感的模型。有趣的是,Google透過大數據進行的分析結果,其準確性遠勝於公部門運用專屬資料所獲得的預測結果。
大數據的由來:歷史已久
其實類似上述光點套疊地圖的概念,早在十九世紀就有了。接下來我要說的故事,若用今天的眼光來看,並不完全符合大數據的標準,但故事主角對資料的蒐集、整合與詮釋,以及因而所產生的影響,其實也可算是大數據的先河了。
1854年8月31日到9月3日,英國倫敦蘇活區(SOHO)爆發了嚴重的疫情,光這四天就有127人死於霍亂,接下來更有超過500人死亡。那時的醫學觀點普遍認為,這個病是透過空氣傳播,只要避免接觸混濁的空氣,就可遠離疾病。但這樣的做法似乎沒什效果,也無法抑制霍亂的持續擴散。
當時一位名為約翰‧斯諾(John Snow)的醫師對此進行研究,他一一訪談蘇活區的住戶,並仔細檢視病人資料後,發現似乎所有的霍亂死亡病例,都圍繞在布拉德街水泵(Broad Street Pump)附近。其中只有10個死例距離該水泵較遠,而更接近別的水泵。但這10個死例中,有5例由於對水質的偏好,而仍從布拉德街水泵取水;有3例則是在布拉德街水泵附近學校就讀的孩童。
約翰‧斯諾高度懷疑霍亂可能是透過水源所傳染,而非逸散的惡劣空氣所致。他將病患住家與水泵的位置一一標記在地圖上,如同前述的流感光點套疊地圖作法,這張地圖就是日後在公衛界著稱的倫敦鬼圖。(見下圖)
約翰‧斯諾將這圖以及對霍亂病源的推測,呈報給倫敦市政府衛生主管當局,隔天市政府就派人拆除了布拉德街水泵的把手,以阻止民眾繼續在該處取水。而他本人也因這創意的資料視覺化呈現,和深具洞見的病源推測而名留青史。
大數據的重點:在量更在質
我講這些故事,並不是要稱讚Google有多神,或討論光點套疊地圖的技術有多厲害。而是要說明,大數據其實是由日常生活或企業營運的許多個別資料所構成,當資料累積到一定數量後,就可能產生「由量變到質變」的現象和新價值。
很多人以為要有幾百萬、幾千萬筆資料,或達到多少GB、TB甚至PB才算是大數據,其實,這並不是很正確的觀念。當然,「量」愈大愈可能代表資料的全貌,但同等、甚或更重要的是數據的「質」。
數據的「量」很容易看到,資料有多少筆一目了然;但「質」就隱諱許多,需要研究者注意是否有 garbage in garbage out (意指將錯誤、無意義的資料輸入電腦,自然會輸出錯誤、無意義的結果)的現象,而且即便是「質」佳的資料,也需研究者跳脫舊有思考模式,以新觀點檢視並非顯而易見的數據內涵。
對多數企業或部門來說,很多決策無關乎大數據或較複雜的統計分析,而與小資料*及產業的領域知識(Domain Knowledge)有關,有時,只要幾千筆,甚至幾百筆資料,就已足夠做有意義的分析。
* 對小資料有興趣的讀者可進一步閱讀:Ross, Jeanne W., Cynthia M. Beath and Anne Quaadgras (2013), “You May Not Need Big Data After All,” Harvard Business Review, December, 90-98.
前述約翰‧斯諾所用的數據,充其量也不過幾百或幾千筆而已。但他卻能整合基礎病例、訪談內容和地址資料(就這點而言,他的做法非常符合大數據的多樣性variety 概念),充分發掘數據豐富的「質」,而見人之所未見,大膽推測霍亂與地緣的關係,並找到有問題的水泵,這樣的洞見思維才是大數據分析更重要的意義。
我們可以做什麼:先盤點公司資料的量和質
如果你是中小企業的經營者或主管,請回頭想想,貴公司歷年來累積了多少顧客資料、供應商資料、銷售品項、數量、金額等?公司裡是不是有專人管理和分析這些被稱為「數位時代」的「原油」呢?還是空有這些素材,卻是以各種不同形式或格式,散置公司各處而乏人問津?
有心的管理者,或許可花時間盤點一下公司資料的量和質,而後針對想瞭解的議題,進行相關資料的蒐集和統整。然後,找較年輕、熱情,有一些統計背景,最好還有R或Python程式撰寫經驗的同事,和他們共同討論,發想看看能否有新角度的分析。
共同的期勉
凡事總有個開始,無論是上述對中小企業管理者提問的初步回答,或邀集公司同仁對資料分析的初步嘗試,都可大幅提升公司進入大數據領域的機會。這小小的嘗試,很可能因此開始了貴公司的「大數據」元年。
以上的故事,談到了資料蒐集、大數據、機器學習、資料視覺化(或資料可視化)等「資料科學 Data Science」的許多基礎概念。將這些概念單獨或整合移植到行銷領域的應用,就是我們在台灣科技大學企管系「行銷資料科學團隊」所努力的。我們將結合本團隊的能量,陸續分享相關的理論和實務,期能為台灣的行銷資料科學發展貢獻一點心力。