ChatPaper.aiChatPaper

Verso un Sistema di Risposta a Domande Mediche di Livello Esperto con Modelli Linguistici di Grande Dimensione

Towards Expert-Level Medical Question Answering with Large Language Models

May 16, 2023
Autori: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Abstract

I recenti sistemi di intelligenza artificiale (IA) hanno raggiunto traguardi significativi in "grandi sfide" che vanno dal Go al ripiegamento delle proteine. La capacità di recuperare conoscenze mediche, ragionarvi sopra e rispondere a domande mediche in modo paragonabile ai medici è stata a lungo considerata una di queste grandi sfide. I grandi modelli linguistici (LLM) hanno catalizzato progressi significativi nel rispondere a domande mediche; Med-PaLM è stato il primo modello a superare un punteggio di "sufficienza" in domande in stile US Medical Licensing Examination (USMLE), ottenendo un punteggio del 67,2% sul dataset MedQA. Tuttavia, questo e altri lavori precedenti hanno suggerito un ampio margine di miglioramento, specialmente quando le risposte dei modelli venivano confrontate con quelle dei clinici. Qui presentiamo Med-PaLM 2, che colma queste lacune sfruttando una combinazione di miglioramenti del modello LLM di base (PaLM 2), affinamento nel dominio medico e strategie di prompt, tra cui un nuovo approccio di raffinamento ensemble. Med-PaLM 2 ha ottenuto fino all'86,5% sul dataset MedQA, migliorando Med-PaLM di oltre il 19% e stabilendo un nuovo stato dell'arte. Abbiamo anche osservato prestazioni che si avvicinano o superano lo stato dell'arte su dataset come MedMCQA, PubMedQA e MMLU su argomenti clinici. Abbiamo condotto valutazioni umane dettagliate su domande a risposta lunga lungo più assi rilevanti per le applicazioni cliniche. In un confronto a coppie di 1066 domande mediche di consumatori, i medici hanno preferito le risposte di Med-PaLM 2 rispetto a quelle prodotte dai medici stessi su otto dei nove assi relativi all'utilità clinica (p < 0,001). Abbiamo anche osservato miglioramenti significativi rispetto a Med-PaLM su ogni asse di valutazione (p < 0,001) su nuovi dataset introdotti di 240 domande lunghe "avversariali" per esplorare i limiti degli LLM. Sebbene siano necessari ulteriori studi per validare l'efficacia di questi modelli in contesti reali, questi risultati evidenziano un rapido progresso verso prestazioni di livello medico nel rispondere a domande mediche.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.
PDF62May 8, 2026