Rumo à Resolução de Perguntas Médicas em Nível de Especialista com Modelos de Linguagem de Grande Escala
Towards Expert-Level Medical Question Answering with Large Language Models
May 16, 2023
Autores: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Resumo
Sistemas recentes de inteligência artificial (IA) atingiram marcos importantes em "grandes desafios", desde o jogo Go até o dobramento de proteínas. A capacidade de recuperar conhecimento médico, raciocinar sobre ele e responder a perguntas médicas de forma comparável a médicos tem sido vista há muito tempo como um desses grandes desafios.
Modelos de linguagem de grande escala (LLMs) catalisaram progressos significativos na resposta a perguntas médicas; o Med-PaLM foi o primeiro modelo a ultrapassar uma pontuação de "aprovação" em questões no estilo do Exame de Licenciamento Médico dos EUA (USMLE), com uma pontuação de 67,2% no conjunto de dados MedQA. No entanto, este e outros trabalhos anteriores sugeriram que há espaço significativo para melhorias, especialmente quando as respostas dos modelos foram comparadas às respostas dos clínicos. Aqui apresentamos o Med-PaLM 2, que preenche essas lacunas ao aproveitar uma combinação de melhorias no LLM base (PaLM 2), ajuste fino no domínio médico e estratégias de prompt, incluindo uma nova abordagem de refinamento por ensemble.
O Med-PaLM 2 obteve até 86,5% no conjunto de dados MedQA, superando o Med-PaLM em mais de 19% e estabelecendo um novo estado da arte. Também observamos desempenho próximo ou superior ao estado da arte nos conjuntos de dados MedMCQA, PubMedQA e tópicos clínicos do MMLU.
Realizamos avaliações humanas detalhadas em questões de longa duração ao longo de múltiplos eixos relevantes para aplicações clínicas. Em uma classificação comparativa pareada de 1066 questões médicas de consumidores, os médicos preferiram as respostas do Med-PaLM 2 às produzidas por médicos em oito de nove eixos relacionados à utilidade clínica (p < 0,001). Também observamos melhorias significativas em comparação ao Med-PaLM em todos os eixos de avaliação (p < 0,001) em novos conjuntos de dados de 240 questões de longa duração "adversariais" para explorar as limitações dos LLMs.
Embora sejam necessários mais estudos para validar a eficácia desses modelos em cenários do mundo real, esses resultados destacam um progresso rápido em direção ao desempenho de nível médico na resposta a perguntas médicas.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand
challenges" ranging from Go to protein-folding. The capability to retrieve
medical knowledge, reason over it, and answer medical questions comparably to
physicians has long been viewed as one such grand challenge.
Large language models (LLMs) have catalyzed significant progress in medical
question answering; Med-PaLM was the first model to exceed a "passing" score in
US Medical Licensing Examination (USMLE) style questions with a score of 67.2%
on the MedQA dataset. However, this and other prior work suggested significant
room for improvement, especially when models' answers were compared to
clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by
leveraging a combination of base LLM improvements (PaLM 2), medical domain
finetuning, and prompting strategies including a novel ensemble refinement
approach.
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM
by over 19% and setting a new state-of-the-art. We also observed performance
approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU
clinical topics datasets.
We performed detailed human evaluations on long-form questions along multiple
axes relevant to clinical applications. In pairwise comparative ranking of 1066
consumer medical questions, physicians preferred Med-PaLM 2 answers to those
produced by physicians on eight of nine axes pertaining to clinical utility (p
< 0.001). We also observed significant improvements compared to Med-PaLM on
every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form
"adversarial" questions to probe LLM limitations.
While further studies are necessary to validate the efficacy of these models
in real-world settings, these results highlight rapid progress towards
physician-level performance in medical question answering.