Lib4U

‎"Behind every stack of books there is a flood of knowledge."

Kiểm định t (t-test)

t-test

Vấn đề. Các nhà nghiên cứu đo nồng độ cholesterol (mg/dl) ở hai nhóm cá nhân, phân biệt bằng cá tính. Tạm gọi là cá tính A và B. Mỗi nhóm có 20 cá nhân. Kết quả như sau:

Nhóm có cá tính A:

233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325

Nhóm có cá tính B:

344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213

Phân tích nồng độ cholesterol của hai nhóm và xác định sự khác biệt có ý nghĩa thống kê hay không?

Giải: Phương pháp phân tích cơ bản để trả lời câu hỏi trên là t-test. Gọi clip_image004

lần lượt là giá trị trung bình của cholesterol ở nhóm A và nhóm B, phương pháp kiểm định được tính toán bằng công thức:

clip_image006

trong đó, clip_image008 là sai số chuẩn của hiệu số clip_image010. Với R, chúng ta có thể phân tích như sau:

groupA = c(233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325)

groupB = c(344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213)

t.test(groupA, groupB)

> t.test(groupA, groupB)

Welch Two Sample t-test

data: groupA and groupB

t = 2.5621, df = 35.413, p-value = 0.01481

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

7.227071 62.272929

sample estimates:

mean of x mean of y

245.05 210.30

 

Kết quả trên được tính toán dựa vào giả định hai nhóm có phương sai khác nhau. Nếu chúng ta có lí do để nghĩ rằng phương sai hai nhóm giống nhau, có thể dùng lệnh:

t.test(groupA, groupB, var.equal=TRUE)

hoặc:

t.test(groupA, groupB, var.equal=T)

> t.test(groupA, groupB, var.equal=T)

Two Sample t-test

data: groupA and groupB

t = 2.5621, df = 38, p-value = 0.01449

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

7.293091 62.206909

sample estimates:

mean of x mean of y

245.05 210.30

 

Câu hỏi đặt ra là làm cách nào để biết phương sai của hai nhóm tương đương nhau? Phương pháp đơn giản nhất là dùng phương pháp kiểm định F. Kiểm định F tính tỉ số phương sai của hai nhóm và so sánh với giá trị tham chiếu của phân phối F. Trong R, chúng ta dùng lệnh:

> var.test(groupA, groupB)

F test to compare two variances

data: groupA and groupB

F = 0.5745, num df = 19, denom df = 19, p-value = 0.236

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.2273779 1.4513427

sample estimates:

ratio of variances

0.5744591

Phương sai của nhóm A và nhóm B (dùng lệnh var(groupA) và var(groupB)) là: 1342.37 và 2336.75. Do đó, tỉ số của hai phương sai là 1342.37 / 2336.75 = 0.57 (như kết quả tính toán của var.test trên). Var.test còn cho biết hai phương sai này không khác nhau có ý nghĩa thống kê vì P = 0.236. Do đó, chúng ta có thể giả định rằng hai nhóm này có phương sai tương đương nhau, và có thể dùng lệnh:

t.test(groupA, groupB, var.equal=T)

Những phân tích trên có thể tóm lược như sau:

Nhóm A Nhóm B Khác biệt và khoảng tin cậy 95% Trị số P
N 20 20
Cholesterol 245.05 (36.64) 210.30 (48.34) 34.75 (7.23, 62.27) 0.014

 

Những kết quả trên có thể cho chúng ta kết luận rằng cholesterol của nhóm A cao hơn nhóm B, và khác biệt này có ý nghĩa thống kê.

Vấn đề: Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của 29 bệnh nhân bị loét dạ dày và của 30 người chứng. Liệu có sự khác nhau về lượng lysozyme trong dịch dạ dày của hai nhóm này không?

Nhóm bệnh:

0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4 10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0

Nhóm chứng:

0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7 5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0

Giải đáp. Chúng ta bắt đầu phân tích bằng một bảng tóm lược các chỉ số thống kê mô tả như sau:

g1 <- c( 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8, 4.5, 4.8, 4.9, 5.0,

5.3, 7.5, 9.8, 10.4, 10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7,

24.0, 25.4, 40.0, 42.2, 50.0, 60)

g2 <- c(0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0, 2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8, 7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5, 16.7, 20.0, 20.7, 33.0)

library(psych)

describe(g1); describe(g2)

Nhóm bệnh Nhóm chứng
N 29 30
Lysozyme levels 14.31 (15.74) 7.68 (7.85)

 

Nếu chúng ta sử dụng hàm t.test để kiểm định giả thuyết hai nhóm có nồng độ lysozyme tương đương nhau, sẽ có kết quả như trình bày dưới đây. Kết quả này cho biết nhóm bệnh có nồng độ lysozyme cao hơn nhóm chứng, với P = 0.048.

> t.test(g1, g2)

data: g1 and g2

t = 2.0357, df = 40.804, p-value = 0.04831

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.05163216 13.20239083

sample estimates:

mean of x mean of y

14.310345 7.683333

 

Nhưng trước khi chấp nhận kết quả trên, chúng ta cần phải kiểm tra xem giả định của kiểm định t có hợp lí hay không. Kết quả của kiểm định t chỉ hợp lí nếu (a) số liệu tuân theo luật phân phối chuẩn; (b) hai nhóm có phương sai tương đương nhau; và (c) hai nhóm độc lập với nhau.

Chú ý trong bảng tóm lược trên: độ lệch chuẩn cao hơn số trung bình. Đó là “tín hiệu” cho thấy lysozyme có thể không tuân theo luật phân phối chuẩn. Ngoài ra, chú ý nhóm có trung bình càng cao thì độ lệch chuẩn cũng càng cao. Xu hướng này gợi ý rằng số liệu có thể hoán chuyển sang đơn vị logarithm.

Để kiểm định dữ liệu tuân theo luật phân phối chuẩn hay không, chúng ta có thể dùng kiểm định Shapiro qua hàm shapiro.test trong R như sau. Cả hai test đều cho thấy số liệu không tuân theo luật phân phối chuẩn, vì trị số P < 0.001. Ngoài ra, kiểm định phương sai với var.test cũng cho thấy phương sai của nhóm bệnh cao hơn nhóm chứng gấp 4 lần, và có ý nghĩa thống kê. Do đó, kết quả của kiểm định trên chưa thể chấp nhận được.

> shapiro.test(g1)

Shapiro-Wilk normality test

data: g1

W = 0.8036, p-value = 9.697e-05

> shapiro.test(g2)

Shapiro-Wilk normality test

data: g2

W = 0.8338, p-value = 0.0002888

 

> var.test(g1,g2)

 

F test to compare two variances

 

data: g1 and g2

F = 4.0209, num df = 28, denom df = 29, p-value = 0.0003659

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

1.905414 8.527164

sample estimates:

ratio of variances

4.020865

 

Ví mối tương quan giữa trung bình và phương sai gợi ý chúng ta cần phải hoán chuyển dữ liệu sang đơn vị logarithm. Để làm việc đó, chúng ta trước hoán chuyển số liệu sang đơn vị log, và sau đó hết kiểm tra phân phối của log.

log.g1 = log(g1)

log.g2 = log(g2)

> shapiro.test(log.g1)

Shapiro-Wilk normality test

data: log.g1

W = 0.938, p-value = 0.08868

> shapiro.test(log.g2)

Shapiro-Wilk normality test

data: log.g2

W = 0.9555, p-value = 0.2372

 

Kết quả trên cho thấy log lysozyme tuân theo luật phân phối chuẩn, cho nên chúng ta sẽ phân tích số liệu với đơn vị mới:

> t.test(log.g1, log.g2)

data: log.g1 and log.g2

t = 1.406, df = 55.714, p-value = 0.1653

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.2182472 1.2453165

sample estimates:

mean of x mean of y

1.921094 1.407559

 

Kết quả trên cho thấy tuy nhóm bệnh có nồng độ lysozyme cao hơn nhóm chứng, nhưng bây giờ thì độ khác biệt không có ý nghĩa thống kê (P = 0.163).

exp(1.921-1.407) = 1.67

exp(-0.2182472) = 0.803

exp(1.2453165) =3.47

Trị số lysozyme của nhóm bệnh nhân cao hơn nhóm chứng 1.67 lần hay 67%. Tuy nhiên, lysozyme của nhóm bệnh có thể thấp hơn nhóm chứng 20%, nhưng cũng có thể cao hơn gấp 3.5 lần. Do đó, chúng ta chưa có bằng chứng để kết luận rằng sự khác biệt về lysozyme giữa hai nhóm có ý nghĩa thống kê.

NVT

Source:

http://statistics.vn/index.php?option=com_content&view=article&id=281:kim-nh-t-t-test&catid=25:t-test&Itemid=36

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Information

This entry was posted on May 23, 2013 by in Mathematics, Research & Life, Science & Technology, Statistics.
Virtual Fashion Technology

Virtual Fashion Education

toitocuaanhem

"chúng tôi chỉ là tôi tớ của anh em, vì Đức Kitô" (2Cr 4,5b)

VentureBeat

News About Tech, Money and Innovation

digitalerr0r

Modern art using the GPU

Theme Showcase

Find the perfect theme for your blog.

lsuvietnam

Learn to Learn

Gocomay's Blog

Con tằm đến thác vẫn còn vương tơ

Toán cho Vật lý

Khoa Vật lý, Đại học Sư phạm Tp.HCM - ĐT :(08)-38352020 - 109

Maths 4 Physics & more...

Blog Toán Cao Cấp (M4Ps)

Bucket List Publications

Indulge- Travel, Adventure, & New Experiences

Lib4U

‎"Behind every stack of books there is a flood of knowledge."

The WordPress.com Blog

The latest news on WordPress.com and the WordPress community.

%d bloggers like this: