2010年3月6日 星期六

[學術] true positive, false positive, ROC curve、 AUC

true/false 意指物件被 正確/錯誤 的分類

分類正確的意思有兩種:屬於該類的物件都被分到該類,不屬於該類的物件都不分到該類
(假設只有兩類 e.g. patient with cancer or patient without cancer)

positive/negative表示被分類的物件屬於 target / background class

通常會用confusion matrix (contingency table)表示關係

常見的evaluation metrics
accuracy = (TP + TN) / Total
precision = TP / (TP + NP)....retrieved documents...what percentage is correct?
recall = TP / (TP + FN).....relevent......what percentage has been retrieved in correct label?

ROC curves (Receiver operating characteristic)
可避免只選用單一評估方法諸如accuracy、precision等等...
觀察 true positive rate = recall ( TP / (TP + FN))與 false positive rate ( FP / (FP + TN))的變化(類似recall rate...a non-decreasing function)

AUC 是ROC curve線段下的面積,最大為1,面積越大performance越好

沒有留言: