2013年7月3日 星期三

第四回:NUMBERS......基本資料描述

NUMB3RS (1)
數字搜查線(NUMB3RS)是一個我滿喜歡的美國影集,講述一個數學家如何利用數學幫他在FBI工作的哥哥破案!對數學有點興趣的人看了應該會覺得很有趣,因為那些理論跟公式都被實際應用在生活中或者用來破案!如果看到數學就想要睡的朋友,建議你們還是不要看這部影集,除非你們有失眠的問題(誤)。這回就是要講一點點數學ㄟㄟㄟ....先不要關視窗,真的只有一點點拉!!)。這回只是延續上一回的內容,我們要來看看怎麼用一些基本的方法來描述我們的資料:基本資料描述(描述性統計)





好吧!照慣例我們來復習上一回的內容吧!!


重點一:研究的過程像是在蓋房子
  • 研究題目=預計要蓋的房子 eg 台北101
  • 研究計劃=建築藍圖、施工方式與預計進度...等等
  • 資料結構=建築的結構,包含外觀架構、建材種類與數量...等等
  • 資料分析=用適當的工法施工
  • 研究討論=驗收與錯誤修正
  • 研究結論=建案出售
重點二:要瞭解一個研究或者要和別人說明一個研究,最重要,也是最花時間需要去瞭解的就是清楚的說明研究題目資料來源、及資料結構,如此就可以大致勾勒出整個研究架構和可能使用的分析方法!! 



在進入主題前,有個重要的觀念分享!!!!

研究人員會依據其研究的特性、資料的來源、分析的方法......等因素決定不同的研究設計方法。常見的有“量性研究Quantitative study”與“質性研究Qualitative study”,當然,也可以“混合”在一起使用 (2)。簡單的解釋如下:
  • 量性研究:從文字上面看,可以說跟“數量”有關,就是利用然科學的方法收集資料或訊息,利用統計分析的方法,較客觀的分析出結果
  • 質性研究:從文字上面來看,是有關“本質”、“品質”的描述方式,利用觀察或訪談的方式記錄下資料與訊息,用以描述與較主觀的分析一個行為或現象
以上的解釋算是把原本的定義簡化了,如果大家想要知道詳細的定義可以先去Google一下,或者等到我們討論到研究方法時才會再出現!不過,這裡提出的重點在於強調這裡討論的統計分析方法是屬於“量性研究”的範圍喲!
 
Really?

基本資料描述
接續前一回有關資料結構的例子:“OHCA患者ROSC成效的分析”

先前我們已經把資料結構說明了(如果忘記趕快回去偷瞇一下),現在我想要利用一些“數字”來將這個資料結構裡面的變數描述得更仔細一些!現在我們手上的資料中,納入了14個相關的變數,其中:

連續型的變數有7個:患者年紀、出勤時間、現場處置時間、出勤人數、出勤TP人數、總CPR時間、注射adrenaline次數;
間斷型的變數也有7個:患者性別、專救隊與否、心律分析、去顫與否、氣管插管、IV輸液、是否ROSC

為什麼要特別強調“連續”與“間斷”這兩種不同類型的資料呢?因為不同的資料型態有不同的描述方式喲! (如果還不確定什麼是連續什麼是間斷趕快去查一下吧!)


針對連續型變數
最常被使用的描述方式:(1) 平均數 MEAN (2) 標準差 STANDARD DEVIATION (3) 中位數 MEDIAN (4) 最大值與最小值 MAXIMUM & MINIMUM

(1) 平均數 MEAN
也就是我們最常說也最常用的“平均”!但是嚴格來說這個“平均”在數學裡稱為算術平均數(Arithmatic mean),用來描述一筆數字資料“集中趨勢”(黑係蝦?....後面有補充唷!)的其中一種方式。大家應該都很熟悉怎麼算出平均數了吧!



範例:
從ROSC成效分析資料中,我們收到9件救護資料,假設我們要計算這些救護平均出勤時間。
當然,現在還用計算機一個一個按實在沒有效率,所以我們可以使用Excel或者其他統計軟體(例如:SPSS、SAS、R等等)來幫忙算喲!在Excel中需要”呼叫“公式:AVERAGE唷!所以就是把出勤時間全部加起來再除以案件個數9,得到平均出勤時間為5.33分鐘(大家算出來跟我一樣嗎?)


[補充]所謂的集中趨勢,我們可以想像有一筆數字資料從小到大排成一列像是在“拔河”(如下圖),每一個數值都代表一個人,且越靠近最大值的人力量越大。當“每個人”的雙手都同時拉動左右兩邊的繩子時,繩子會往力量集中的地方靠近(紅色箭頭方向),下圖的藍色的曲線越高的地方代表該區域力量愈大(也可以想像藍色曲線是被拉動後的繩子)。而綠色的標記就是(這筆資料)”趨勢的代表”那為什麼我們想要知道資料的集中趨勢呢?白話一點來說就是我們想知道這資料中數值的分佈情形比較偏向整筆資料的哪個位置。所以下圖“趨勢的代表”剛好出現在數值比較集中的地方!!!!(哇~有沒有好厲害)常用的集中趨勢表示方法:平均數、中位數

集中趨勢示意圖


(2) 標準差 STANDARD DEVIATION(SD)
標準差可能對大家來說比較陌生,但和平均數一樣是要描述一筆資料的分佈情形。平均數是描述“集中”的趨勢,而標準差就是來描述資料的“分散”情況既然要描述分散的情況,最好的辦法就是在資料中找到一個基準點“來比較,這個基準點就是這筆資料的”平均數“!!!然後算出每個數值和這個”基準點“的”距離“,來看這筆資料中數值的分散程度!當然,每個數值和”基準點“都有一個距離,當我們算出這些距離的”平均“來表示這筆資料”整體的分散情況或者說是“整體資料和基準點距離的集中趨勢“,哈~千萬不要被搞混,這只是不同的解釋方式而已!)來看看公式吧!


  

看起來很恐怖,但是用另一個角度來看:


所以大家發現了嗎?其實標準差的算法跟平均數的算法雷同,只是我們要先把那些”距離“做一些處理而已。所以本質上來說,標準差就是我先前說的整體資料與基準點的平均距離,也就是整體資料分散的情況。另外,標準差的單位和平均數相同喲!(因為是同一筆資料算出來的嘛!)

[補充] 那為什麼需要將各數值與平均數的距離“平方”呢?因為平方後就不會出現“負數值”囉!因為標準差不會有“負的”!至於前面有提到一個名詞“變異數”,就是標準差的平方,後面會在提到喲!要注意的是“變數”和“變異數”不同喲!!!

好吧!趁大家還沒完全睡著前,我們趕快來舉個例子!延續前面出勤時間的範例,平均出勤時間為5.33分鐘,所以基準點是5.33
計算過程

最後算出來的標準差是2.75分鐘!!Excel計算標準差的公式只要“呼喚”這個公式的名字“STDEV”然後再選取你要計算的範圍就可以算出囉!如果我們要與平均數一起表示的話,我們會寫成:5.33 ±2.75(分鐘)。上圖只是要盡責的(有嗎?)把距離跟平方算出來,讓大家看看,尤其平方後“負值”都不見了,很神奇吧!!!

那這個分散的程度應該算很大還是很小呢?
是的! (3)
要看你的資料的單位以及其背後的意義來決定!例如:2.75分鐘算是時間很長嗎?也許在緊急的時候會感覺度秒如年,也可能因此對於ROSC有所影響?!(我們後面再詳細討論喲)如果現在的是看血壓的資料,標準差是2.75mmHg,那大家應該會說血壓的分散程度是2.75mmHg算是很小,可以說這筆血壓的資料的分佈很靠近整體血壓的平均值!!

另一種表示方式:
假設我們的資料是常態分配之後會再詳談,但照字面上來說就是最理想情況下的資料分佈方式),則可以用一個“68-95-99.7準則”來說明這類型資料的的分佈喲!
常態分配圖 (4)
在常態分配之下,資料的分佈會呈現上圖這樣的“鐘型”分佈,平均數會剛好落在正中央!與平均數左右差距一個標準差的範圍,可以剛好涵蓋68%的資料!如果是與平均數差距左右兩個標準差的範圍,則可以涵蓋95%的資料!同理,左右相距三個標準差,就可以涵蓋99.7%的資料!


(3) 中位數 MEDIAN
先前提過中位數和平均數都是用來描述資料的集中趨勢,我們先來找出資料的中位數,再來看看什麼時候可以用平均數或中位數吧!

找出中位數的方法就是把資料從小到大依序排列,然後在整筆資料的正中間位置砍下一刀,那一刀所砍到的數值就是中位數~值得慶幸的,我們有軟體可以幫忙找到中位數喲!一樣在Excel中”呼喚“出公式名稱:MEDIAN,然後依照只是選取資料的範圍,中位數就會自動出現囉!(台語:電腦選的拉!)在我們的範例當中,因為資料筆數很少,大家可以自己動手找找看喲!出勤時間的中位數為6分鐘

那什麼時候要用平均數?什麼時候要用中位數呢?
有一個很簡單的判定方式,就是看標準差,也就是看資料分散的情況!舉個很極端的例子好了:假設我們要看全國人民的平均所得,結果資料剛好收集到全國前10大首富跟100位剛出社會的新鮮人,結果算出來的平均所得是1000萬元,這個平均數真的可以代表全國人民的平均所得嗎?(所以現在開始會覺得只看平均數真的很危險!)如果我們去調查發現收入的標準差有800萬元(這個應該可以“感覺”到差距很大吧!)但當我們去找中位數出來,發現這筆所得資料的中位數落在60萬元!!!各位覺得"1000萬元“還是”60萬元“比較可以代表全國的所得呢???如果這筆資料分佈情況夠平均或者是夠集中的話,中位數和平均數是會很接近的喲!!!!!!

(4) 最大值與最小值 MAXIMUM & MINIMUM
顧名思義,就是找整筆資料中的最大數值與最小數值!當然,軟體也把這功能”船便便“(台語)!在Excel中使用MAX與MIN這兩個公式就可以囉!出勤時間的最大值是10分鐘,最小值是1分鐘!



還有阿!那我先休息一下!呼~(5)


針對間斷型變數
由於間斷型的變數所代表的可能是種類或者是不能計算的數值,因此我們需要用另一種描述資料的方式!最常使用的有:(1) 次數分配表 (2) 百分比。

(1)次數分配表
我們用ROSC成效分析的資料吧!其中一個間斷型變數:心律分析,包含Vf、VT、Asystole、PEA這四種心律,很明顯的我們不能對這四個心律做平均數等等的計算,但是我們可以做的是算出這四種心律各自在資料中出現的“次數”



一樣我們可以利用Excel強大的“樞紐分析”功能將次數分配分析出來(如下圖)。當然統計軟體也是很直覺的可以做出次數分配表與圖喲!

利用直方圖可以表示如下:

由次數分配的情形,我們可以描述在這些OHCA案件中,心律為VT的有1件,Vf的有2件,PEA與Asystole各有3件。也就是說,有三位OHCA患者被偵測為可電擊的心律。

哇~這麼厲害,快動手試試看吧!


(2)百分比
當然,用類似的方法,Excel也可以幫我們計算出百分比跟畫成圖喲!

相同的範例,我們用百分比表示的話,Vf的案例佔22%,VT佔了11%,PEA佔了33%,而Asystole佔了34%。我們發現可以電擊的心律約佔了全部案件的33%(約1/3)。



結論
連接上一回描述資料結構的方法,如果我們將資料結構再以這回所提到的描述性統計方法:平均數、標準差、中位數、最大最小值、次數分配表與百分比來描述各個變數的情況。不難發現,經由這些簡單的計算跟步驟,就從資料中得到更多的訊息囉!我們不僅是將整個研究的資料說明的更加清楚,也代表我們已經踏出了統計分析的第一步囉

(我個人認為這個部分非常重要,因為不僅僅是計算數值,更重要的是要從這裡開始練習怎麼把這些數值變成文字來描述資料了!)



問題討論
又是大家最愛的問題討論囉!
  1. 大家可以嘗試用Excel或者統計軟體來分析看看每月的救護資料吧!!
  2. ROSC成效分析模擬資料(也就是上回與這回的範例)給大家練習看看吧!
  3. 本回還有哪些描述性統計的方法沒有被提到呢?試著找找看還有哪些其他的方法吧!



資料來源
(1) http://www.spikytv.com/wp-content/uploads/120309_0729_Numb3rsSeas1.png

(2)Greenhalgh T. How to read a paper: The Basics of Evidence-based Medicine. 2nd ed. London: BMJ, 2010.

(3) 食神劇照 http://pic.pimg.tw/mulicia/1176774931.jpg

(4) 常態分配 https://zh.wikipedia.org/wiki/File:Standard_deviation_diagram.svg

(5) Cat http://cdn.aaanything.net/wp-content/gallery/hilarious-animals/thumbs/thumbs_horny_cat_with_a_sexy_girl.jpg

沒有留言 :

張貼留言