Naar Expertniveau Medische Vraagbeantwoording met Grote Taalmodellen
Towards Expert-Level Medical Question Answering with Large Language Models
May 16, 2023
Auteurs: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Samenvatting
Recente kunstmatige intelligentie (AI)-systemen hebben mijlpalen bereikt in "grand challenges" variërend van Go tot eiwitvouwing. Het vermogen om medische kennis op te halen, hierover te redeneren en medische vragen te beantwoorden op een niveau dat vergelijkbaar is met artsen, wordt al lang gezien als een van deze grote uitdagingen.
Grote taalmmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in het beantwoorden van medische vragen; Med-PaLM was het eerste model dat een "voldoende" score behaalde voor vragen in de stijl van het Amerikaanse medische licentie-examen (USMLE) met een score van 67,2% op de MedQA-dataset. Echter, dit en ander eerder werk suggereerden aanzienlijke ruimte voor verbetering, vooral wanneer de antwoorden van modellen werden vergeleken met die van clinici. Hier presenteren we Med-PaLM 2, dat deze kloof overbrugt door gebruik te maken van een combinatie van verbeteringen in het basismodel (PaLM 2), finetuning voor het medische domein, en promptingstrategieën, waaronder een nieuwe ensemble-verfijningsaanpak.
Med-PaLM 2 behaalde een score van maximaal 86,5% op de MedQA-dataset, wat een verbetering van meer dan 19% ten opzichte van Med-PaLM betekent en een nieuwe state-of-the-art vestigt. We observeerden ook prestaties die de state-of-the-art benaderden of overtroffen op de datasets MedMCQA, PubMedQA en MMLU klinische onderwerpen.
We voerden gedetailleerde menselijke evaluaties uit op langere vragen langs meerdere assen die relevant zijn voor klinische toepassingen. In een paarsgewijze vergelijkende rangschikking van 1066 consumentenmedische vragen, prefereerden artsen de antwoorden van Med-PaLM 2 boven die van artsen op acht van de negen assen met betrekking tot klinische bruikbaarheid (p < 0,001). We observeerden ook significante verbeteringen ten opzichte van Med-PaLM op elke evaluatie-as (p < 0,001) op nieuw geïntroduceerde datasets van 240 langere "adversariële" vragen om de beperkingen van LLMs te onderzoeken.
Hoewel verdere studies nodig zijn om de effectiviteit van deze modellen in real-world settings te valideren, benadrukken deze resultaten de snelle vooruitgang naar artsniveau in het beantwoorden van medische vragen.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand
challenges" ranging from Go to protein-folding. The capability to retrieve
medical knowledge, reason over it, and answer medical questions comparably to
physicians has long been viewed as one such grand challenge.
Large language models (LLMs) have catalyzed significant progress in medical
question answering; Med-PaLM was the first model to exceed a "passing" score in
US Medical Licensing Examination (USMLE) style questions with a score of 67.2%
on the MedQA dataset. However, this and other prior work suggested significant
room for improvement, especially when models' answers were compared to
clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by
leveraging a combination of base LLM improvements (PaLM 2), medical domain
finetuning, and prompting strategies including a novel ensemble refinement
approach.
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM
by over 19% and setting a new state-of-the-art. We also observed performance
approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU
clinical topics datasets.
We performed detailed human evaluations on long-form questions along multiple
axes relevant to clinical applications. In pairwise comparative ranking of 1066
consumer medical questions, physicians preferred Med-PaLM 2 answers to those
produced by physicians on eight of nine axes pertaining to clinical utility (p
< 0.001). We also observed significant improvements compared to Med-PaLM on
every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form
"adversarial" questions to probe LLM limitations.
While further studies are necessary to validate the efficacy of these models
in real-world settings, these results highlight rapid progress towards
physician-level performance in medical question answering.