2022年6月28日 星期二

“大數法則”怎麼變成了“小數原則”?

  

    我們進行任何工程之前,都必須進行地質調查,而每一個地質調查只能進行有限數量的鑽孔和試驗,工程師必須根據這有限的資料做出分析,設計和判斷。當我們問負責地質調查的工程師,他怎麼確定他的鑽孔孔數和試驗數量是足夠的,大多數的工程師大概只能回答:這符合法規的要求。

 

    許多統計的理論都是根據“大數法則”(Law of Large Number)。大數法則簡單的說是敘述相當多次數重複驗的結果的法則,根據這個法則,樣本數量越多則其統計性質(statistical properties)則能達到任意的精確程度(arbitrary degree of accuracy)

 

    很可惜,在真實的世界中,我們得到的資料是遠遠不足夠的,就像大多數的地質調查(Christian, 2004)Tversky Kahneman (1971)就觀察到這個現象。他們認為人們經常無法得到足夠的資料來做有效的推論,但是人們的行為卻是表現出他們已經有足夠的資料。這個現象Tversky Kahneman稱之為“小數原則”(Law of Small Numbers)。「快思慢想」有一章題目就是「小數原則」,Kahneman還做了兩個結論:

 

    “對小樣本誇大的信心只是一般錯覺的例子之一。我們對訊息內容的注意力,大過訊息的可信賴度。”

 

    “統計產生許多觀察看起來具因果關係的解釋,但是它其實沒有解釋力。這個世界許多事實是來自機率,包括取樣的意外在內。”

 

 

(這裡的所有文章都留存於Blogger中的「專業人士的自我修鍊」)

(判斷:3

2022年6月21日 星期二

「三個臭皮匠」

 

    MIT I-95 試驗路堤邀請了七組專家,請他們對於試驗路堤的破壞高度做出預測,這個問題是有高度的不確定性,但是很出人意外的在他們最佳預測的範圍之內卻沒有一組預測到實際土堤的破壞高度。然而他們七組最佳預測的平均值卻是一個相當接近實際破壞高度的結果。

 

    當我分享這個案例時,老友鍾詩嘉就講到這大概就是我們日常生活講的「三個臭皮匠」的智慧吧!不約而同的,同學梁文棣也談到了James Surowiecki的名著“The Wisdom of Crowds”,Surowiecki談的群眾是指相當多數而且未必受過專業訓練的一群人,他認為在四個條件下可以形成群眾的智慧:意見多元化、思考獨立性、分權系統化和集體做決策。

 

    我最關心的問題是,當我們面對一個有高度不確性的技術性或決策性問題時,一群(數人到數十人)專家是否能夠,而且如何能夠,得到一個最佳的結論。這個問題普遍存在在各個領域之中,在工程領域中災害事故原因的探討,重大災害後續的處理都是很常見的案例。

 

    當然有的專家能夠隻手解決眾人難解的疑惑,最出名的莫過於物理學家Richard Feynman 將一個O-ring 投入冰水中就說明了太空梭Challenger 失事的原因!但是絕大多數的例子不是這樣的,還是需要集眾人之力來解決。

 

    Prof. Gregory Baechen Prof. John Christian (Prof. John Christian不幸於65日病逝,在此也表達我對他的追思哀悼之意)曾經對如何取得專家對於 量化判斷機率”(quantify judgmental probabilities)的意見,提出了建議的步驟:

 

(1)大致決定所處理問題需要評估的不確定性。

(2)選擇一組專家,這些專家的專業領域包括了各種可能遇到的不確定性。

(3)在討論中再詳細的找出特定的議題。

(4)告訴專家們在做集體判斷時的一些基本原理和可能的謬誤。

(5)讓各個專家在他們最擅長的領域做出判斷。

(6)在一位有經驗的 ”facilitator”協助下,專家們進行討論,得到結論。

(7)詳細記錄下討論和得到結論的過程,再送回給專家們確認,而這個紀錄也是顯示出決策的透明程度並經得起日後的公評。

 

    這個過程實在很複雜,說實在的,我也不認為很容易做到。不過這再一次讓我們不要忘記 Daniel Kahneman 的提醒:不要輕信他人的判斷–包括專家的判斷和自己的判斷!

 

(這裡的所有文章都留存於Blogger中的「專業人士的自我修鍊」)

(判斷:3

 

2022年6月14日 星期二

專家的誤判

  

    諾貝爾經濟學獎得主,心理學家Daniel Kahneman不斷提醒人們不要輕信他人的判斷,包括在專業領域受過專業訓練的專業人士。

 

    Kahneman的研究成果不斷的在探討風險的著作中被引用,包括「Black Swan」的作者Nassim Taleb和「Against the Gods」的作者Peter BernsteinBernstein的書中甚至有一整章在介紹KahnemanAmos Tvresky的理論。

 

    對我來說,最有意思的是在我所熟悉的大地工程領域中,也看到了很多實例來印證Kahneman的理論。Prof. Gregory BaecherDr. John Christian都曾在MIT任教,他們都參與過許多重大的工程,Christian有一段時間還主持Stone Webster這家極具規模的營建公司。他們探討工程師在對事件發生可能性時會做出不正確的判斷,其原因主要可以歸納為下列三項:

 

    (1)過度自信(overconfidance): 他們用很有名的I-95試驗路堤來說明: 七組世界級的專家對路堤破壞高度所做的 best estimate以及的信心範圍卻沒有一組估算到實際破壞的路堤高度18.7ft: 這些專家的 best estimate10ft26ft,雖然不預期他們可以準確的估算出實際的破壞高度,但是實際破壞的路堤高度完全沒有在七組的可能範圍內,也實在很出人意料之外!

 

    (2)忽略了“基率”的因素(neglect-of-base-rate): best rate”簡單的說是一個基本的比例,當一個罐子裡有紅色的球和白色的球時,紅/白球的比例就是best rateKahneman的實驗是當人們從罐子裡拿出幾個球(假設都是紅色的),會影響他們對罐中紅白球比例的看法。BaecherChristian舉的實證是在一個6.5規模地震發生後,工程師們因為看到當地有液化發生,他們所做的評估是傾向高估液化發生的機率而忽略了其他因素的影響。

 

    (3)對於“獨立性”的錯誤認知(misperceptions of independence):這類謬誤被稱為“連接的謬論”,也因為是Kahneman的一個比喻,這個謬誤被稱為“Linda Problem”:

 

Kahneman做了一段對Linda的描述,然後他問下面哪一個比較可能?

    (A) Linda是銀行行員。

    (B) Linda是銀行行員,也是活躍的女性運動者。

 

    在這個試驗中大多數人都選了(B)。學過集合和機率的人都知道(A)的機率不會小於(B),但是就有這麼多人(Kahneman的試驗是在名校的大學生中做的)會選擇(B)!在工程界的也不例外,BaecherChristian舉了一個在工程的例子:

 

    (A)在水壩下方有一條斷層。

(B)在水壩下方有一條斷層,而這個斷層的存在使得水壩下方水流造成內部的侵蝕。

 

    工程師多少都上過一些機率的課,但是很多工程師還是會認為(B)發生的可能性高於(A)

 

    Kahneman的研究成果在專業領域裡真的也能適用!對於一向自認為是客觀、公正、理性的工程師,是不是也該想想在做判斷時有沒有過度自信?有沒有犯了判斷上的謬誤?有沒有受剛發生或自己熟悉的事件影響而忽視了全貌?

 

#Overconfidence #NeglectOfBaseRate  #LindaProblem

 

(這裡的所有文章都留存於Blogger中的「專業人士的自我修鍊」)

(判斷:2

2022年6月7日 星期二

專家的自信

 


 

    「快思慢想」的作者Kahneman不斷提醒人們不要輕易相信他人的判斷 - 即使是專家的判斷也不要輕信。

   

    在專業領域裡評估專家的意見並不容易,因為事件經常只有一次發生的機會,而且在不特定的環境下很難進行「試驗」進行比對,即使可以試驗,費用也很可觀。在大地工程的領域中有一個著名的案例,值得大家深思:

 

    1974MIT利用I-95公路的一段試驗路堤,邀請全世界知名的七個團隊來進行預測,看看這個路堤可以加高到多少高度,路堤下方的Boston Blue Clay不能承載,路堤才會破壞。這七個團隊被要求提出他們最佳的預測,同時提出他們認為信心程度的範圍 (interquartile range)

 

    最後這個路堤是被加高到18.7ft時破壞了!

 

    大家都不期望任何一組能準確預測到這個高度。這七組專家分別提出他們各自的最佳預測 (best estimate) 大約是在10~26ft之間。最接近的預測約為23ft。但是七組的平均是15.6ft,這個平均值被認為是相當接近了!

   

    但是比較令人意外的是這七組預測的範圍沒有一組涵括了18.7ft這個實際發生的路堤破壞高度!換句話說,18.7 ft沒有在這七組專家任何一組預測的範圍之內!

 

    更令人意外的是除了七個專家組之外,MIT又另外邀請了26位工程師來做預測,這些工程師沒有專家們那麼多的時間來做分析,但是其中16組預測的範圍區間包含了18.7ft

 

    這個試驗的結果有許多後續的討論,也印證了一些其他的研究成果:

 

(1)    審慎選出的專家們可能在預測期望值時得到比較好的結果;一組專家意見的平均值可能得到更好的結果。這個觀察和Kahneman在「雜訊」(Noise: A Flaw in Human Judgment) 這本書中講的“總合多個獨立判斷” 是一致的。

 

(2)    專家們常有過於自信的傾向,對自己的預測充滿信心,但是低估了他們預測中的不確定性!這也和許多研究所發現的一致: 專家對於他們預估平均值兩側的離散程度經常是嚴重低估的!

 

#ExpertEliciation  #Judgment  #Overconfidence  #I95TestEmbankment

 

(這裡的所有文章都留存於Blogger中的「專業人士的自我修鍊」)

(判斷:1

 

永續發展不只是環保節能!

        很多人一談到永續發展就想到 環境保護、節能減碳,事實上 永續發展涵蓋之廣,牽涉之多,遠不止於此,看看聯合國在 2015 年推出的 17 項的永續發展目標  (Sustainable Development Goals, SDGs) 就可以知道。    ...