Verso un Sistema di Risposta a Domande Mediche di Livello Esperto con Modelli Linguistici di Grande Dimensione
Towards Expert-Level Medical Question Answering with Large Language Models
May 16, 2023
Autori: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Abstract
I recenti sistemi di intelligenza artificiale (IA) hanno raggiunto traguardi significativi in "grandi sfide" che vanno dal Go al ripiegamento delle proteine. La capacità di recuperare conoscenze mediche, ragionarvi sopra e rispondere a domande mediche in modo paragonabile ai medici è stata a lungo considerata una di queste grandi sfide.
I grandi modelli linguistici (LLM) hanno catalizzato progressi significativi nel rispondere a domande mediche; Med-PaLM è stato il primo modello a superare un punteggio di "sufficienza" in domande in stile US Medical Licensing Examination (USMLE), ottenendo un punteggio del 67,2% sul dataset MedQA. Tuttavia, questo e altri lavori precedenti hanno suggerito un ampio margine di miglioramento, specialmente quando le risposte dei modelli venivano confrontate con quelle dei clinici. Qui presentiamo Med-PaLM 2, che colma queste lacune sfruttando una combinazione di miglioramenti del modello LLM di base (PaLM 2), affinamento nel dominio medico e strategie di prompt, tra cui un nuovo approccio di raffinamento ensemble.
Med-PaLM 2 ha ottenuto fino all'86,5% sul dataset MedQA, migliorando Med-PaLM di oltre il 19% e stabilendo un nuovo stato dell'arte. Abbiamo anche osservato prestazioni che si avvicinano o superano lo stato dell'arte su dataset come MedMCQA, PubMedQA e MMLU su argomenti clinici.
Abbiamo condotto valutazioni umane dettagliate su domande a risposta lunga lungo più assi rilevanti per le applicazioni cliniche. In un confronto a coppie di 1066 domande mediche di consumatori, i medici hanno preferito le risposte di Med-PaLM 2 rispetto a quelle prodotte dai medici stessi su otto dei nove assi relativi all'utilità clinica (p < 0,001). Abbiamo anche osservato miglioramenti significativi rispetto a Med-PaLM su ogni asse di valutazione (p < 0,001) su nuovi dataset introdotti di 240 domande lunghe "avversariali" per esplorare i limiti degli LLM.
Sebbene siano necessari ulteriori studi per validare l'efficacia di questi modelli in contesti reali, questi risultati evidenziano un rapido progresso verso prestazioni di livello medico nel rispondere a domande mediche.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand
challenges" ranging from Go to protein-folding. The capability to retrieve
medical knowledge, reason over it, and answer medical questions comparably to
physicians has long been viewed as one such grand challenge.
Large language models (LLMs) have catalyzed significant progress in medical
question answering; Med-PaLM was the first model to exceed a "passing" score in
US Medical Licensing Examination (USMLE) style questions with a score of 67.2%
on the MedQA dataset. However, this and other prior work suggested significant
room for improvement, especially when models' answers were compared to
clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by
leveraging a combination of base LLM improvements (PaLM 2), medical domain
finetuning, and prompting strategies including a novel ensemble refinement
approach.
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM
by over 19% and setting a new state-of-the-art. We also observed performance
approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU
clinical topics datasets.
We performed detailed human evaluations on long-form questions along multiple
axes relevant to clinical applications. In pairwise comparative ranking of 1066
consumer medical questions, physicians preferred Med-PaLM 2 answers to those
produced by physicians on eight of nine axes pertaining to clinical utility (p
< 0.001). We also observed significant improvements compared to Med-PaLM on
every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form
"adversarial" questions to probe LLM limitations.
While further studies are necessary to validate the efficacy of these models
in real-world settings, these results highlight rapid progress towards
physician-level performance in medical question answering.