每人都很虛偽,每人都在說謊:大數據告訴我們甚麼?

2019年,「大數據」已成為人們衝口而出的詞彙,龐大數目的私人資料、網上紀錄,以及當中呈現的行為模式和個人取向、隱私,究竟在展示社會規範的偽善,還是人性確有不為人知的真相?《紐約時報》撰稿人大衛德維茲 (Seth Stephens-Davidowitz) 2017年出版了《數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目》一書,指出在網絡獲得的大數據,比我們平日在人前的言談舉止,或在訪問、問卷調查表達的意見,都更能反映最真實的內心世界;然而這樣的真相,卻充滿傳統規範定義的政治不正確,不少甚至有違法、道德問題。面對所有人心底裏的黑暗面無所遁形的年代,國際關係又會面對怎樣的變革?

《數據、謊言與真相》的成書背景,源於作者對Google的親身經歷,因為他本來就是Google的數據分析師。在工作中,他發現當每人每日都使用網上搜尋器,不論是學術資料、新聞、商品、還是揭秘,搜尋行為日積月累,已形成個人行為模式、選擇和偏好的龐大資料庫,而且這是不可逆轉的。通過個人在Google的搜尋關鍵詞、這些詞彙的搜尋次數、頻率和組合,這些資料建構了一個平行時空的世界,隱然透露了「真正」的主流價值觀。然後他進一步研究Facebook、twitter等社交媒體,以及維基百科、約會網站、色情網站等,發現用戶在這些平台留下的痕跡,都有一個共通點:它們與民調或訪問收集的主流意見,往往大相逕庭。

基於以上設定,大衛德維茲認為大數據在未來世界,具有以下四項關鍵力量:

  1. 由於大數據是基於網絡使用者無意識、或「以為沒有人知道」的情況下,作出的搜尋行為而提供,反映更誠實、不加掩飾的數據資料,呈現人們生活的真實面貌和狀況,而非人們希望自己展現給別人的「政治正確」、「高大全」完美形象,也和我們平日要堅守的底線無關。
  2. 大數據讓分析員只需利用特定程式碼,就能輕易獲取數以十萬、百萬計網絡使用者的資訊,令獲取個人資訊的成本大幅降低,被數據主導未來的可能性則大增。而且大數據更可讓人不只看到整體趨勢,亦可針對特定組群如性別、年齡等,將數據切割分解,對特定群組具體分析,巨細無遺。
  3. 大數據能通過電腦運算的力量(機械學習),將龐大數量的數字、文字和圖像資訊加以編程整理,而成為更有意義的資料,再提供其他變項,從而了解本來貌似毫無關聯的事物之間,也許存在更複雜的關係。
  4. 大數據基於在網絡蒐集和整理的特性,更容易進行實驗、運算和分析,幫助知道不同數據和變項之間的因果關係,也更容易掌握箇中的相關性,例如「教徒是否特別表裏不一」這類問題,很可能在網絡得到答案。

大數據傳達的「真相」與「謊言」

大衛德維茲在書中開首,就以「特朗普當選和當時民調數據的矛盾」,以及「奧巴馬成為美國總統,是否代表大部份美國人已沒有種族歧視心態」這兩個問題,指出我們從民意調查、常理推斷和個人觀感所得,往往與真實狀況大相逕庭。這反映網絡使用者在匿名狀態下,往往會表露不敢在線下談論的事情,諸如種族歧視、同性性傾向、性事、虐童、仇恨思想等。大數據正將我們原本沒有在人前展現的部份暴露出來,正如替此書寫推薦序的心理學家平克 (Steven Pinker)所言,大數據彷彿成為了「窺探人心的窗口」。

雖然作者強調大數據並非萬能,依然需要透過人類的判斷、後續進行的具體調查,才能發揮作用,否則大數據只會帶來更龐大數量的「事實」,但大勢所趨,相信很快連各種各樣的分析,有了人工智能、機械學習,也能假手於電腦,人類最真實的七情六慾,也就無所遁形。對人類而言,這是好事還是壞事?大衛德維茲認為大數據將令社會科學變為「真實的科學」,為人類帶來更美好的社會,也就是從前共產主義、國家社會主義一類烏托邦的理想,有了真正的數目字管理基礎,要落實再也不是夢,不少創業者也是朝同一個夢想推進。某內地保險公司聲稱已研發出根據大數據、人工智能、面容辨識等,能一秒分析保險申請人有否說謊和投保代價,這樣的未來,已經觸手能及。

然而大數據帶來的顛覆性影響,卻可能令人類未進化至那階段,已面臨其他危機,例如極權政體的濫用和監控,就幾乎是不可避免的事實。不過先不談這一點,我們先還原基本步,究竟網民在網絡留下的痕跡是否就是「真相」、還是不過另一種「後真相」,這本身已是永不能有共識的議題。正如英國哲學學者斯特勞森 (Galen Strawson)所言,大量人群聚集在相同網絡社交圈的同溫層圍爐暖,令群體內的信念、偏見只會更強化,從中獲得的大數據到底還有多真實?人性本來就不是一個固化的概念,每刻都在改變,有善有惡,因應不同反應作出回應。假如一個人在網絡被可以誘導釋放某一面向,那只能代表他和網絡這中介的互動,容易令某一傾向展現出來,卻不一定代表這就是他「真實」的一面。

以特朗普的支持者為例,可能他們在現實社會彬彬有禮,對少數族群充滿尊重,而到了網絡世界「原形畢露」,不斷散播仇恨,但後者往往建基於他們的說話不用負責任、也不會成真的基礎而出現。一旦他們說的話會全部變成事實,天下為之大亂,很可能他們又情願回到一切有規範的現實世界。又如人性對不同性觀念、性傾向,本來就有天生的探索精神,又如在現實世界充滿壓抑,在網絡全盤釋放,只是一個挑戰與回應的行為。同性戀、戀母情結、戀物情結一類網站的點擊率頗高,這簡單的代表了很多人掩飾真面目,還是另有其他解讀,就是同一現象的延伸。假如從看人獸交片段的點擊總數,得出人類有多少比例有次癖好,很容易本末倒置。

水能載舟、亦能覆舟,大數據出現後,我們固然進入了「後私隱年代」,但這代表了甚麼,政府、大企業如何研判與回應,是推波助瀾、盲目阻撓還是視而不見,將決定人類未來發展的最後命運。

小詞典:大衛德維茲 (Seth Stephens-Davidowitz)

美國《紐約時報》撰稿人,2013年哈佛大學經濟學博士畢業,曾在Google擔任數據分析師,一直研究大數據對人類未來的影響,也是華盛頓商學院客席講師。2017年出版的《數據、謊言與真相》一書,是他在Google工作過程觀察所得的進一步研究,出版後引起政商學界不少注視。

信報財經新聞2019年1月28日

延伸閱讀:假如脫歐公投發生在大數據時代

發表迴響

Up ↑

%d 位部落客按了讚: