2015年3月4日 星期三

從相關係數來看到底生活中的科學是什麼??

首先先來看一句話統計讓數字會說話,這句話是正確的
但說的話可以是正面、負面的也可以是精心設計過後的話
要讓數字怎麼說話完全取決於決策者的統計手法與心態

在這個資訊爆炸、科學三寶滿天飛的時代,看科學新聞一定要瞭解的一點就是,觀察性研究只能顯示AB的變動有關連,不能很明確的證明A造成B或是B造成A

科學三寶:立委妓者假專家

統計這種東西對於科學研究者來說是一個可以證明自己研究的價值
但是只要你有心,用真實的數據也可以玩出很強的相關性和差異性。這也是目前市面上許多激進組織所慣用的伎倆之一

其實只要掌握住n大小抽樣分配其實要高顯著高相關不是件困難的事情


真正統計厲害的人,是可以在不用創造數據下,跑出跟原本完全不同的統計趨勢,這時候如果你統計底子不好就會被反打臉到死 
(所以統計真的很重要,各位客官,生統要好好學阿)

舉個例來說台灣近年來的自殺率有攀升的趨勢,而麥當勞在台灣的展店數也有攀升的趨勢,所以把自殺率和麥當勞的展店數跑相關分析,證明說因為展店數高所以導致高致殺率???? 

What the fuck ?? 這時候我會跟他說:你媽知道你在這裡發廢文嗎?

統計的角度來說這句話是正確的,但以科學邏輯的角度來說是欠缺證據來証實的






















(圖片引用至三分鐘科學粉絲團)在三分鐘科學的圖片中威爾鋼的銷量有逐年攀升,而有機食品的銷量也是,那對於反對有機食品的人來說,將威爾鋼銷量和有機食品來跑相關性,其實樣本數越大則相關性會越高,甚至高到嚇鼠你,這我們下段在說明


















有機食品恐導致自閉症(autism)?     
圖片中(圖片引用至三分鐘科學粉絲團)威爾鋼的銷量和自閉症患者有逐年攀升,而有機食品銷量也是,那對於反對有機食品的激進組織來說,將威爾鋼銷量/自閉症或者診斷數和有機食品來跑相關性,就可以創造出看似科學但卻又不合科學邏輯的研究,藉此激進團體可以大力的反對有機產品,推廣他們的產品(這邊只是舉個例,畢竟為反對而反對的人很多)。

由上述兩張圖片我們可以知道一個觀念:

【相關不蘊含因果】Correlation Does Not Imply Causation

根據三分鐘科學小編的發表意見(例外情況設立假說)

(1)
而嚴格說起來兩反應值單獨出現的話真的沒辦法證明反應值間有因果性,但如果A出現的時候B出現的機率比沒有A(影響因子)時多好幾倍,而且好幾個獨立的觀察性研究都有同樣的結果,同時做隨機對照實驗不可行的時候,我們會勉強把觀察性研究的結論拿來當作是可能性很高的理論,「抽煙導致肺癌」就是很好的例子。因為有些研究認為說抽菸會導致肺癌,但是在confounding factor(干擾因子)未完全釐清的情況下只能說有這個可能性。

(2)另外以溫室氣體與氣候變遷來說。溫室氣體是真的會吸收紅外線所以才被叫做溫室氣體,人類釋放的溫室氣體造成全球暖化會被認定是"事實"也是因為我們找不到另外一個地球來做對照實驗所以才會從各個方向蒐集不同的資料來看兩件事情有沒有關係。很可惜的是,目前看起來大部分方向產生的資料指出「人類造成我們正在經歷的全球暖化」這個假說是非常靠譜的。

而一般我們再跑相關性分析,大部分都是雙變數相關性分析,也就是兩個反應值間有沒有存在著相同或相反趨勢,相關性分析所得的相關係數主要是告訴我們變項間的相關程度高或低,並沒有檢定「自變項」對「依變項」影響,因此得到的相關係數(r值)只能說明這兩個變項間是正相關、負相關,或者是無關。不能解讀為自變項對依變項的影響。

如果你有用過spss的話你就會知道在跑anova分析時,會有「自變項」和「依變項」的選項要選擇,但是在相關分析卻只有雙變數的選擇

相關性分析的變異數(變異數和母數和抽樣分布有關)則稱為共變數(雙變數的交集變異數)
其性質有:

(1)
針對兩種變數的共同變異數共變數雖然可判斷兩變數間的關聯方向,無、正、負相關,但共變數會隨著數據尺度的不同而改變,因此只能判斷方向,而不能判斷強度。

(2)
為了要判斷強度,可將共變數除以兩個變數的標準差,就可以克服單位和尺度的影響。將共變數除以兩個變數的標準差的值就稱為積差相關係數,也稱皮爾森相關係數

這邊有沒有看出什麼端倪?? 共變數和標準差可以決定相關係數,所以如果我們可以利用機率分配或是其他手段調整共變數或標準差,就可以讓原本的趨勢改變(雖然個人覺得這種機率很低,但這世上沒有絕對的事情)

談完了相關係數,就來談所謂的顯著性(梁與葉)

假如你想要研究兩個變數之間的相關性,取樣1000人,做相關係數得到的結果為r=-0.06(p<0.001),表示兩個變數之間相關係數為-0.06,且有統計上顯著的差異,這該如何解釋?

相關係數非常接近0,理應是兩個變數之間線性關係不強,但是做檢定時的p 值非常顯著,這是很常見的情形。相關係數檢定主要是檢定母群體相關係數(ρ表示)是否等於0,當樣本數大的時候,一般均會達統計上的顯著差異。在實務上,一般也以r 的大小來看相關的強弱,而非只看是否顯著。

接著要解釋為什麼高樣本數會有低相關係數且伴隨著高顯著性的原理(毛,2008、沈,2010)

因為樣本數越高越容易有顯著差異,因為根據中央極限定理,樣本數越高兩型誤差的分布會越尖且窄,這時候就可以在不減少α值的情況下提高檢定力(1-β),因為提高重複數回提高整理自由度,提高整體自由度就會順便提高機差項自由度使得EMS變小,EMS變小會讓F值提高,就容易檢定成功,棄卻H0假說,接受H1假說
H0假說:β = 0H1假說:β ≠ 0 β為斜率

目前常用的相關性分析檢定數有(吳與塗,2010)
(1)Pearson
相關係數,常用於母數檢定法之相關性分析,也是SPSS的預設選項
(2)Kendall’s tau-b
等級相關係數,常用於檢定兩個人為次序變數是否為一致的相關指標係數,比Spearman適用範圍更廣(可用於n<10,為無母數檢定法)
(3)Spearman 
等級相關係數可以方便檢驗兩個定序變數是否相關,但是很難實際解釋兩個變數如何相關及相關程度(無母數檢定法)


最後再舉一個跟食品一個跟營養有關的例子

在多醣體的萃取研究中,常會測得的物理性質不外乎就是黏度和分子量,而很多文獻都會說兩個存在著顯著性的正相關。一旦看到相關就要去找尋關聯機制。分子量越長,多醣體的整體體積越大,在流體流動時,因為結構太長太大,分子鏈間容易碰撞形成阻力,而黏度的定義就是液體流動時所產生的阻力,所以這就是為什麼分子量越大黏度會越大的原因(Togrual and Arslan, 2003;蔡,2015)


再來是高血糖與腎衰竭的關聯,很多文獻也會說高血糖會判隨著糖尿病腎病變,兩個有高度正相關性。糖尿病患者血糖容易在血液中且很難代謝掉,所以血液中會有很多溶質成分(葡萄糖),會造成腎臟代謝性及血管動力學的改變以及高溶質血液過濾時對腎臟造成的負擔,這就是高血糖與腎衰竭的關聯機制(姜,2012)

參考文獻:
1.Togrul, H., and Arslan, N. (2003). Flow properties of sugar beet pulp cellulose and intrinsic viscosity–molecular weight relationship. Carbohydrate Polymers, 54(1), 63-71.
2.梁文敏、葉懿淳:第十四單元相關係數 - 中國醫藥大學。中國醫藥大學-生物統計中心。
3.吳明隆、塗金堂(2010)SPSS與統計應用分析-修訂版。五南圖書公司。
4.毛正倫(2008):實用統計技術=Practical Statistic Techniques。華騰文化。台北市。台灣。
5.沈明來(2010):試驗設計學=Experimental Design 第四版。九州圖書文化有限公司。台北市。台灣。
6.姜和均(2012)糖尿病腎臟病變的形成和機轉。中華民國糖尿病衛教學會 2012 3 月會訊。
7.蔡銘澤(2015):檸檬酸萃取文旦柚種子外殼多醣理化性質之探討。碩士論文。國立中興大學食品暨應用生物科技學研究所。台中市。台灣。

1 意見: