甚麼是Continuous A/B Testing?︰「Be Water」的真正哲學

連日分享了不少朋友對修訂《逃犯條例》引起群眾運動的大數據研究,反映近年數據民間化、學術多樣化,本來的小圈子研究氛圍開始慢慢改變,同時亦改變了新一代面對問題及決策方式。

根據傳統決策統計學模型,要決定一個行為(無論是改變版面的按鈕、或是行動升級)有效還是無效,往往是透過A/B測試(A/B Testing)來處理。所謂的A/B 測試,就是透過隨機將實驗者導入兩個不同的設計環境A 和B (多數A是原來的設計,B是加入了新行為的設計),然後比較他們面對設計環境的不同反應,從而了解新設計是否有效改變實驗者的行為。這樣的思考模式被上一代社會科學研究視為金科玉律,因此不論是做民調研究,或是考慮政策選項,整個研究的設計,都在於尋找足夠的數據,處理好整套統計模型後,然後比較得出p-value跟alpha,p-value小於alpha,就代表這行為是統計學上有意義的。然後,負責決策的人會認為因為結果在統計學上有意義,放大這個行為在整個設計上有(或無)實際意義,從而決定某些行為是有用,還是無用。

然而,我們可以想像一個情況︰假如不斷延長參與實驗人數,或不斷重覆實驗次數,會得出甚麼樣的結果?可以合理預期,由於人數增加,可能得出截然不同的統計數據;因為次數增加,則可能得出一組不同實驗時期衍生的統計數據。這些「新數據」會得出不同p-value,甚至會有p-value大於alpha的情況,屆時我們就要問一個很重要的問題︰那當初研究設計定下的取本數、或研究執行時數,有沒有問題?不少研究指出,假如A/B testing甚至A/A testing的觀察數很大,次數或時數很長,做出錯誤決定的機率(Type I error)可達3成以上。

帶來這個統計學思考,只是為了指出研究設計不同,決策環境差異,甚至如何定義「一個事件」,足以影響我們決定哪些行為是「有用」,哪些行為是「沒有用」。正如史丹福大學學者Ramesh Johari指出,以往的決策環境是「預先設計」,即我們會知道整個「實驗」的前設、執行方法、期望的參與人數等,而這個實驗是一個社會事件。但現實生活是,我們不可能預期所有事情都如上天安排美好,可以完美執行預先設定的實驗環境;改變行為、引進新設定的成本甚高,因此要中止實驗,以轉換行為及設定,先要理解轉換本身有沒有真正的意義。否則假如轉換後,我們可能要面對高達3成的Type I error,那為甚麼要轉換新策略?

套用此刻香港,運動一句常見口號是「Be Water」,既是借用武者李小龍的名言,也是勸導示威者要「流動」。從數據及決策研究而言,Be Water的意義,在於同時肯定不同示威之間的獨立性及連貫性,因此維持「和理非」還是變陣「勇武」,「勇武」升級還是不升級的決定,示威者跟「冷氣軍師」所面對的情景根本不同。「冷氣軍師」面對的,是以整場《逃犯條例》修訂風波終局,作為單一社會事件去思考,從而去判定「和理非」與「勇武」、或是「勇武」升級,更能促成達至「五大訴求 缺一不可」的終局,因此對於他們來說,「民意逆轉」是判斷行為有效與否的準則之一。而「衡量」民意逆轉,就是以一個單一A/B testing的方面,思考「勇武」行為對民意的影響。

但對前線示威者而言,《逃犯條例》修訂風波自打響了「勇武」第一次後,他們在每一次示威,都要問相同問題︰維持既定策略還是改變策略,更有效得到成果?思考及衡量標準既是「每次示威」計算,也是與之前的示威所得出的「結果」合流。因此,除非出現很大的期望落差,例如「佔領機場」及「堵塞港鐵」,否則維持既定策略的「見步行步」方針,不一定是「錯誤決定」,這就是continuous A/B testing。而正如上週另一文章談及,新世代特別擅長這種決策模式,和生長在android世代、習慣一切皆可以輕易變改,關係密不可分。

特別是當民意真的如流水,示威者感受到民意變化為常態,單一的下跌不足以影響整個民意大局,維持既定策略的最大好處 – 減少改變策略的成本,就成為合理化決策的另一個主要因素。而假如「冷氣軍師」跟前線示威者的決策環境已存有如此大的差異,從而得出對運動方向及策略得出不同思考及結論,連走上前線直接面對示威者勇氣也沒有的溝通平台,如何得出運動真相,更是另一回事了。

信報財經新聞2019年8月23日

延伸閱讀:政府為何落後200年:去中心化的網民三大法寶, 與全球社運年代

發表迴響

Up ↑

%d 位部落客按了讚: