
แพทย์มักจะสอบถามข้อมูลสุขภาพทางอิเล็กทรอนิกส์ของผู้ป่วยสำหรับข้อมูลที่ช่วยให้พวกเขาตัดสินใจในการรักษา แต่ลักษณะที่ยุ่งยากของบันทึกเหล่านี้ขัดขวางกระบวนการ การวิจัยแสดงให้เห็นว่าแม้แพทย์จะได้รับการฝึกอบรมให้ใช้บันทึกสุขภาพอิเล็กทรอนิกส์ (EHR) การค้นหาคำตอบสำหรับคำถามเพียงข้อเดียวอาจใช้เวลานานกว่าแปดนาทีโดยเฉลี่ย
ยิ่งแพทย์ต้องใช้เวลามากขึ้นในการนำทางอินเทอร์เฟซ EHR ที่เกะกะซึ่งบ่อยครั้ง พวกเขาก็ยิ่งมีเวลาโต้ตอบกับผู้ป่วยและให้การรักษาน้อยลงเท่านั้น
นักวิจัยได้เริ่มพัฒนาแบบจำลองแมชชีนเลิร์นนิงที่สามารถปรับปรุงกระบวนการโดยการค้นหาข้อมูลที่แพทย์ต้องการใน EHR โดยอัตโนมัติ อย่างไรก็ตาม โมเดลที่มีประสิทธิภาพในการฝึกอบรมต้องใช้ชุดข้อมูลจำนวนมากของคำถามทางการแพทย์ที่เกี่ยวข้อง ซึ่งมักจะเกิดขึ้นได้ยากเนื่องจากข้อจำกัดด้านความเป็นส่วนตัว แบบจำลองที่มีอยู่พยายามสร้างคำถามที่แท้จริง ซึ่งเป็นคำถามที่แพทย์มนุษย์จะถาม และมักไม่สามารถหาคำตอบที่ถูกต้องได้สำเร็จ
เพื่อเอาชนะปัญหาการขาดแคลนข้อมูลนี้ นักวิจัยที่ MIT ได้ร่วมมือกับผู้เชี่ยวชาญทางการแพทย์เพื่อศึกษาคำถามที่แพทย์ถามเมื่อทบทวน EHR จากนั้นพวกเขาจึงสร้างชุดข้อมูลที่เปิดเผยต่อสาธารณะ ซึ่งมี คำถามที่เกี่ยวข้องทางคลินิกมากกว่า 2,000 ข้อที่เขียนโดยผู้เชี่ยวชาญทางการแพทย์เหล่านี้
เมื่อพวกเขาใช้ชุดข้อมูลเพื่อฝึกโมเดลแมชชีนเลิร์นนิงเพื่อสร้างคำถามทางคลินิก พวกเขาพบว่าแบบจำลองดังกล่าวถามคำถามที่มีคุณภาพและเชื่อถือได้มากกว่า 60 เปอร์เซ็นต์เมื่อเทียบกับคำถามจริงจากผู้เชี่ยวชาญทางการแพทย์
ด้วยชุดข้อมูลนี้ พวกเขาวางแผนที่จะสร้างคำถามทางการแพทย์ที่แท้จริงจำนวนมาก และใช้คำถามเหล่านั้นเพื่อฝึกแบบจำลองการเรียนรู้ด้วยเครื่อง ซึ่งจะช่วยให้แพทย์ค้นหาข้อมูลที่ต้องการในบันทึกของผู้ป่วยได้อย่างมีประสิทธิภาพมากขึ้น
“คำถามสองพันข้ออาจฟังดูเยอะ แต่เมื่อคุณดูแบบจำลองแมชชีนเลิร์นนิงที่ได้รับการฝึกฝนในปัจจุบัน พวกมันมีข้อมูลมากมาย อาจเป็นจุดข้อมูลหลายพันล้านจุด เมื่อคุณฝึกโมเดลแมชชีนเลิร์นนิงเพื่อทำงานในสถานพยาบาล คุณต้องมีความคิดสร้างสรรค์มากเพราะขาดข้อมูลดังกล่าว” Eric Lehman หัวหน้าผู้เขียนหลัก นักศึกษาระดับบัณฑิตศึกษาจากห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) กล่าว .
ผู้เขียนอาวุโสคือ Peter Szolovits ศาสตราจารย์ในภาควิชาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ (EECS) ซึ่งเป็นหัวหน้ากลุ่มการตัดสินใจทางคลินิกใน CSAIL และยังเป็นสมาชิกของ MIT-IBM Watson AI Lab รายงานการวิจัย ซึ่งเป็นความร่วมมือระหว่างผู้เขียนร่วมที่ MIT, MIT-IBM Watson AI Lab, IBM Research และแพทย์และผู้เชี่ยวชาญทางการแพทย์ที่ช่วยสร้างคำถามและมีส่วนร่วมในการศึกษา จะนำเสนอในการประชุมประจำปีของภาคเหนือ บทอเมริกันของสมาคมภาษาศาสตร์คอมพิวเตอร์
“ข้อมูลที่สมจริงเป็นสิ่งสำคัญสำหรับรูปแบบการฝึกอบรมที่เกี่ยวข้องกับงานแต่ยังค้นหาหรือสร้างได้ยาก” Szolovits กล่าว “คุณค่าของงานนี้อยู่ที่การรวบรวมคำถามที่ถามโดยแพทย์เกี่ยวกับกรณีผู้ป่วยอย่างรอบคอบ ซึ่งเราสามารถพัฒนาวิธีการที่ใช้ข้อมูลเหล่านี้และแบบจำลองภาษาทั่วไปเพื่อถามคำถามที่เป็นไปได้เพิ่มเติม”
ข้อมูลบกพร่อง
Lehman อธิบาย ชุดข้อมูลขนาดใหญ่ของคำถามทางคลินิกบางส่วนที่นักวิจัยสามารถค้นหาได้นั้นมีปัญหามากมาย บางคำถามประกอบด้วยคำถามทางการแพทย์ที่ถามโดยผู้ป่วยในฟอรัมบนเว็บ ซึ่งห่างไกลจากคำถามของแพทย์ ชุดข้อมูลอื่นๆ มีคำถามที่สร้างจากเทมเพลต ดังนั้นส่วนใหญ่จะเหมือนกันในโครงสร้าง ทำให้คำถามมากมายไม่สมจริง
Lehman กล่าวว่า “การรวบรวมข้อมูลคุณภาพสูงเป็นสิ่งสำคัญอย่างยิ่งสำหรับการทำงานด้านแมชชีนเลิร์นนิง โดยเฉพาะอย่างยิ่งในบริบทของการดูแลสุขภาพ และเราได้แสดงให้เห็นแล้วว่าสามารถทำได้”
ในการสร้างชุดข้อมูล นักวิจัยของ MIT ได้ทำงานร่วมกับแพทย์และนักศึกษาแพทย์ฝึกหัดในปีสุดท้ายของการฝึกอบรม พวกเขาให้ข้อมูลสรุปการจำหน่าย EHR แก่ผู้เชี่ยวชาญทางการแพทย์มากกว่า 100 รายการ และบอกให้พวกเขาอ่านบทสรุปและถามคำถามที่พวกเขาอาจมี นักวิจัยไม่ได้จำกัดประเภทคำถามหรือโครงสร้างของคำถามเพื่อพยายามรวบรวมคำถามตามธรรมชาติ พวกเขายังขอให้ผู้เชี่ยวชาญทางการแพทย์ระบุ “ข้อความเรียก” ใน EHR ที่ทำให้พวกเขาถามคำถามแต่ละข้อ
ตัวอย่างเช่น ผู้เชี่ยวชาญทางการแพทย์อาจอ่านบันทึกใน EHR ที่ระบุว่าประวัติทางการแพทย์ในอดีตของผู้ป่วยมีความสำคัญต่อมะเร็งต่อมลูกหมากและภาวะไทรอยด์ทำงานต่ำ ข้อความกระตุ้น “มะเร็งต่อมลูกหมาก” อาจทำให้ผู้เชี่ยวชาญถามคำถามเช่น “วันที่วินิจฉัย” หรือ “มีการแทรกแซงใด ๆ เกิดขึ้น?”
พวกเขาพบว่าคำถามส่วนใหญ่มุ่งเน้นไปที่อาการ การรักษา หรือผลการทดสอบของผู้ป่วย แม้ว่าการค้นพบนี้จะไม่ใช่เรื่องที่ไม่คาดคิด แต่การหาจำนวนคำถามเกี่ยวกับหัวข้อกว้างๆ แต่ละหัวข้อจะช่วยให้พวกเขาสร้างชุดข้อมูลที่มีประสิทธิภาพสำหรับใช้ในสถานพยาบาลจริงได้ Lehman กล่าว
เมื่อพวกเขารวบรวมชุดข้อมูลของคำถามและข้อความทริกเกอร์ประกอบแล้ว พวกเขาใช้เพื่อฝึกโมเดลการเรียนรู้ด้วยเครื่องเพื่อถามคำถามใหม่ตามข้อความทริกเกอร์
จากนั้นผู้เชี่ยวชาญทางการแพทย์ก็ตัดสินว่าคำถามเหล่านั้น “ดี” หรือไม่โดยใช้เมตริก 4 อย่าง ได้แก่ ความเข้าใจ (คำถามนั้นสมเหตุสมผลสำหรับแพทย์ที่เป็นมนุษย์หรือไม่) เรื่องไม่สำคัญ (คำถามที่ตอบง่ายเกินไปจากข้อความทริกเกอร์หรือไม่) ความเกี่ยวข้องทางการแพทย์ (ใช่หรือไม่ เหมาะสมที่จะถามคำถามนี้ตามบริบทหรือไม่) และความเกี่ยวข้องกับตัวกระตุ้น (ตัวกระตุ้นเกี่ยวข้องกับคำถามหรือไม่)
สาเหตุของความกังวล
นักวิจัยพบว่าเมื่อแบบจำลองได้รับข้อความเรียก มันสามารถสร้างคำถามที่ดีได้ 63 เปอร์เซ็นต์ ในขณะที่แพทย์ที่เป็นมนุษย์จะถามคำถามที่ดี 80 เปอร์เซ็นต์ของเวลาทั้งหมด
พวกเขายังฝึกแบบจำลองเพื่อกู้คืนคำตอบสำหรับคำถามทางคลินิกโดยใช้ชุดข้อมูลที่เปิดเผยต่อสาธารณะที่พวกเขาพบในตอนเริ่มต้นของโครงการนี้ จากนั้นพวกเขาทดสอบแบบจำลองที่ได้รับการฝึกอบรมเหล่านี้เพื่อดูว่าพวกเขาสามารถหาคำตอบสำหรับคำถามที่ “ดี” ถามโดยผู้เชี่ยวชาญทางการแพทย์ของมนุษย์ได้หรือไม่
โมเดลเหล่านี้สามารถกู้คืนคำตอบสำหรับคำถามที่แพทย์สร้างขึ้นได้ประมาณ 25 เปอร์เซ็นต์เท่านั้น
“ผลลัพธ์นั้นน่าเป็นห่วงจริงๆ สิ่งที่ผู้คนคิดว่าเป็นแบบจำลองที่มีประสิทธิภาพดีนั้น ในทางปฏิบัตินั้นแย่มาก เพราะคำถามการประเมินที่พวกเขาทำการทดสอบนั้นไม่ดีสำหรับการเริ่มต้น” เลห์แมนกล่าว
ทีมงานกำลังนำงานนี้ไปใช้กับเป้าหมายเริ่มต้นของพวกเขา: การสร้างแบบจำลองที่สามารถตอบคำถามของแพทย์ใน EHR ได้โดยอัตโนมัติ สำหรับขั้นตอนต่อไป พวกเขาจะใช้ชุดข้อมูลเพื่อฝึกโมเดลการเรียนรู้ด้วยเครื่องที่สามารถสร้างคำถามทางคลินิกที่ดีได้เป็นพันหรือล้านคำถามโดยอัตโนมัติ จากนั้นจะนำไปใช้ในการฝึกโมเดลใหม่สำหรับการตอบคำถามอัตโนมัติได้
ในขณะที่ยังมีงานอีกมากที่ต้องทำก่อนที่แบบจำลองนั้นจะเป็นจริงได้ Lehman ได้รับการสนับสนุนโดยผลลัพธ์เริ่มต้นที่แข็งแกร่งซึ่งทีมแสดงให้เห็นด้วยชุดข้อมูลนี้
งานวิจัยนี้บางส่วนได้รับการสนับสนุนโดย MIT-IBM Watson AI Lab ผู้เขียนร่วมเพิ่มเติม ได้แก่ Leo Anthony Celi จาก MIT Institute for Medical Engineering and Science; Preethi Raghavan และ Jennifer J. Liang จาก MIT-IBM Watson AI Lab; Dana Moukheiber จากมหาวิทยาลัยบัฟฟาโล; Vladislav Lialin และ Anna Rumshisky จากมหาวิทยาลัยแมสซาชูเซตส์ที่ Lowell; Katelyn Legaspi, Nicole Rose I. Alberto, Richard Raymund R. Ragasa, Corinna Victoria M. Puyat, Isabelle Rose I. Alberto และ Pia Gabrielle I. Alfonso จากมหาวิทยาลัยฟิลิปปินส์; Anne Janelle R. Sy และ Patricia Therese S. Pile จากศูนย์การแพทย์อนุสรณ์มหาวิทยาลัย East Ramon Magsaysay; Marianne Taliño จากคณะแพทยศาสตร์และสาธารณสุขมหาวิทยาลัย Ateneo de Manila; และ Byron C. Wallace จากมหาวิทยาลัยภาคตะวันออกเฉียงเหนือ