Rumo à Resolução de Perguntas Médicas em Nível de Especialista com Modelos de Linguagem de Grande Escala

Resumo

Sistemas recentes de inteligência artificial (IA) atingiram marcos importantes em "grandes desafios", desde o jogo Go até o dobramento de proteínas. A capacidade de recuperar conhecimento médico, raciocinar sobre ele e responder a perguntas médicas de forma comparável a médicos tem sido vista há muito tempo como um desses grandes desafios. Modelos de linguagem de grande escala (LLMs) catalisaram progressos significativos na resposta a perguntas médicas; o Med-PaLM foi o primeiro modelo a ultrapassar uma pontuação de "aprovação" em questões no estilo do Exame de Licenciamento Médico dos EUA (USMLE), com uma pontuação de 67,2% no conjunto de dados MedQA. No entanto, este e outros trabalhos anteriores sugeriram que há espaço significativo para melhorias, especialmente quando as respostas dos modelos foram comparadas às respostas dos clínicos. Aqui apresentamos o Med-PaLM 2, que preenche essas lacunas ao aproveitar uma combinação de melhorias no LLM base (PaLM 2), ajuste fino no domínio médico e estratégias de prompt, incluindo uma nova abordagem de refinamento por ensemble. O Med-PaLM 2 obteve até 86,5% no conjunto de dados MedQA, superando o Med-PaLM em mais de 19% e estabelecendo um novo estado da arte. Também observamos desempenho próximo ou superior ao estado da arte nos conjuntos de dados MedMCQA, PubMedQA e tópicos clínicos do MMLU. Realizamos avaliações humanas detalhadas em questões de longa duração ao longo de múltiplos eixos relevantes para aplicações clínicas. Em uma classificação comparativa pareada de 1066 questões médicas de consumidores, os médicos preferiram as respostas do Med-PaLM 2 às produzidas por médicos em oito de nove eixos relacionados à utilidade clínica (p < 0,001). Também observamos melhorias significativas em comparação ao Med-PaLM em todos os eixos de avaliação (p < 0,001) em novos conjuntos de dados de 240 questões de longa duração "adversariais" para explorar as limitações dos LLMs. Embora sejam necessários mais estudos para validar a eficácia desses modelos em cenários do mundo real, esses resultados destacam um progresso rápido em direção ao desempenho de nível médico na resposta a perguntas médicas.

English

Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.

Rumo à Resolução de Perguntas Médicas em Nível de Especialista com Modelos de Linguagem de Grande Escala

Towards Expert-Level Medical Question Answering with Large Language Models

Resumo

Support