DT News - Vietnam - AI vượt qua kỳ thi nha khoa tại Vương quốc Anh: Ý nghĩa đối với giáo dục và đánh giá BDS

Fraser Mcdonald, Dental Tribune International

T7. 19 Tháng 7 2025

Lưu lại

MANCHESTER, Anh: Có lẽ ứng dụng hữu ích và phổ biến nhất của trí tuệ nhân tạo (AI) trong cuộc sống của một người bình thường là mô hình ngôn ngữ lớn (LLM)—một loại mô hình học máy mà chúng ta dựa vào để trả lời hội thoại cho nhiều loại câu hỏi, từ lời khuyên cuộc sống đến kiểm tra thông tin đơn giản. Một nghiên cứu mới của Anh đã đánh giá hiệu suất của ba chương trình LLM phổ biến—Gemini, ChatGPT và Grok—trong các bài đánh giá của chương trình Cử nhân Phẫu thuật Nha khoa (BDS) và chương trình Vệ sinh và Trị liệu Nha khoa (DHT). Nghiên cứu này nhấn mạnh cách LLM có thể hỗ trợ giáo dục nha khoa, nhưng cũng phơi bày những hạn chế chính, đặc biệt là trong việc tạo nội dung đánh giá sinh viên.

Nghiên cứu đã chỉ ra rằng các chương trình Thạc sĩ Luật (LLM) có khả năng vượt qua các kỳ thi trong lĩnh vực y tế, mặc dù chưa có phân tích rõ ràng về vai trò của họ trong giáo dục nha khoa, cũng như so sánh các nền tảng khác nhau. Nghiên cứu mới đã cố gắng giải quyết vấn đề này và cho thấy cả ba chương trình Thạc sĩ Luật đều có thể vượt qua mọi đánh giá với 260 câu hỏi trắc nghiệm, 80 bài kiểm tra trả lời ngắn và ba bài kiểm tra vấn đáp có cấu trúc được rút ra từ chương trình giảng dạy BDS và DHT. Kết quả kiểm tra các câu hỏi trắc nghiệm là nhất quán giữa các mô hình và không có sự khác biệt đáng kể nào được tìm thấy. Tuy nhiên, trong các bài kiểm tra trả lời ngắn, ChatGPT và Grok đã vượt trội hơn đáng kể so với Gemini trong nhóm DHT.

Điều này có ý nghĩa quan trọng về mặt lâm sàng và giáo dục. Khả năng trả lời các câu hỏi viết của các Thạc sĩ Luật trong tất cả các năm học của chương trình BDS và DHT cho thấy rằng các công cụ này có thể được sinh viên sử dụng để hỗ trợ ôn tập và được các nhà giáo dục sử dụng để đánh giá tiến độ của người học. Những phát hiện này cũng củng cố các kết quả nghiên cứu trước đây cho thấy rằng các chương trình Thạc sĩ Luật là một công cụ rất có giá trị trong giáo dục nha khoa, bất chấp những rủi ro an ninh mạng mà chúng có thể gây ra.

Tuy nhiên, khi được yêu cầu tạo ra các câu hỏi thi gốc và các phương án chấm điểm, tất cả các chương trình Thạc sĩ Nha khoa (LLM) đều bộc lộ những thiếu sót đáng kể. Các vấn đề bao gồm phương án chấm điểm quá phức tạp hoặc mơ hồ, sử dụng sai thuật ngữ lâm sàng, phủ định kép trong các câu hỏi và các câu hỏi không phù hợp với kết quả học tập dự kiến. Quan trọng hơn, hầu hết các câu hỏi được tạo ra chỉ đạt đến các cấp độ thấp hơn của thang phân loại Bloom và tháp Miller, tập trung vào việc nhớ lại sự kiện hơn là ứng dụng lâm sàng hoặc lập luận.

Đối với giáo dục nha khoa, điều này cho thấy rằng, mặc dù LLM có thể hỗ trợ việc học tập hình thành và đánh giá ít quan trọng, nhưng chúng vẫn chưa thể thay thế đáng tin cậy vai trò của con người trong việc thiết kế các công cụ đánh giá tổng kết chất lượng cao. Điều này đặc biệt quan trọng trong chương trình BDS, nơi các bài đánh giá phải hỗ trợ sự tiến bộ từ người mới bắt đầu đến bác sĩ lâm sàng có năng lực thông qua một chương trình giảng dạy có cấu trúc.

Nghiên cứu kết luận rằng các LLM như ChatGPT và Grok có giá trị trong việc hỗ trợ giáo dục BDS, đặc biệt là trong việc trả lời câu hỏi và tạo nội dung dự thảo. Tuy nhiên, sự giám sát của con người vẫn rất cần thiết để đảm bảo tính chính xác lâm sàng, phù hợp với các tiêu chuẩn của Hội đồng Nha khoa Tổng quát và đánh giá kiến thức ứng dụng một cách có ý nghĩa. Khi các công cụ AI tiếp tục phát triển, việc tích hợp chúng vào giáo dục nha khoa cần được cân nhắc kỹ lưỡng, dựa trên bằng chứng và do nhà giáo dục dẫn dắt.

Nghiên cứu có tiêu đề "Hiệu suất của các mô hình ngôn ngữ lớn (ChatGPT4‑0, Grok2 và Gemini) trong nha khoa, đánh giá vệ sinh răng miệng và liệu pháp tại Vương quốc Anh" đã được công bố trực tuyến vào ngày 20 tháng 6 năm 2025 trên Tạp chí Nha khoa Anh, trước khi được đưa vào một số báo.