ChatPaper.aiChatPaper

Naar Expertniveau Medische Vraagbeantwoording met Grote Taalmodellen

Towards Expert-Level Medical Question Answering with Large Language Models

May 16, 2023
Auteurs: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Samenvatting

Recente kunstmatige intelligentie (AI)-systemen hebben mijlpalen bereikt in "grand challenges" variërend van Go tot eiwitvouwing. Het vermogen om medische kennis op te halen, hierover te redeneren en medische vragen te beantwoorden op een niveau dat vergelijkbaar is met artsen, wordt al lang gezien als een van deze grote uitdagingen. Grote taalmmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in het beantwoorden van medische vragen; Med-PaLM was het eerste model dat een "voldoende" score behaalde voor vragen in de stijl van het Amerikaanse medische licentie-examen (USMLE) met een score van 67,2% op de MedQA-dataset. Echter, dit en ander eerder werk suggereerden aanzienlijke ruimte voor verbetering, vooral wanneer de antwoorden van modellen werden vergeleken met die van clinici. Hier presenteren we Med-PaLM 2, dat deze kloof overbrugt door gebruik te maken van een combinatie van verbeteringen in het basismodel (PaLM 2), finetuning voor het medische domein, en promptingstrategieën, waaronder een nieuwe ensemble-verfijningsaanpak. Med-PaLM 2 behaalde een score van maximaal 86,5% op de MedQA-dataset, wat een verbetering van meer dan 19% ten opzichte van Med-PaLM betekent en een nieuwe state-of-the-art vestigt. We observeerden ook prestaties die de state-of-the-art benaderden of overtroffen op de datasets MedMCQA, PubMedQA en MMLU klinische onderwerpen. We voerden gedetailleerde menselijke evaluaties uit op langere vragen langs meerdere assen die relevant zijn voor klinische toepassingen. In een paarsgewijze vergelijkende rangschikking van 1066 consumentenmedische vragen, prefereerden artsen de antwoorden van Med-PaLM 2 boven die van artsen op acht van de negen assen met betrekking tot klinische bruikbaarheid (p < 0,001). We observeerden ook significante verbeteringen ten opzichte van Med-PaLM op elke evaluatie-as (p < 0,001) op nieuw geïntroduceerde datasets van 240 langere "adversariële" vragen om de beperkingen van LLMs te onderzoeken. Hoewel verdere studies nodig zijn om de effectiviteit van deze modellen in real-world settings te valideren, benadrukken deze resultaten de snelle vooruitgang naar artsniveau in het beantwoorden van medische vragen.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.
PDF52December 15, 2024