Vers un système de réponse aux questions médicales de niveau expert avec des modèles de langage à grande échelle
Towards Expert-Level Medical Question Answering with Large Language Models
May 16, 2023
Auteurs: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Résumé
Les systèmes récents d'intelligence artificielle (IA) ont atteint des étapes clés dans des "défis majeurs", allant du jeu de Go au repliement des protéines. La capacité à extraire des connaissances médicales, à raisonner dessus et à répondre à des questions médicales de manière comparable à des médecins a longtemps été considérée comme l'un de ces grands défis.
Les grands modèles de langage (LLM) ont catalysé des progrès significatifs dans la réponse aux questions médicales ; Med-PaLM a été le premier modèle à dépasser un score "de passage" pour des questions de style US Medical Licensing Examination (USMLE) avec un score de 67,2 % sur le jeu de données MedQA. Cependant, ce travail et d'autres travaux antérieurs suggéraient une marge d'amélioration significative, en particulier lorsque les réponses des modèles étaient comparées à celles des cliniciens. Nous présentons ici Med-PaLM 2, qui comble ces lacunes en exploitant une combinaison d'améliorations du LLM de base (PaLM 2), d'ajustement fin dans le domaine médical et de stratégies d'incitation incluant une nouvelle approche de raffinement par ensemble.
Med-PaLM 2 a obtenu jusqu'à 86,5 % sur le jeu de données MedQA, améliorant Med-PaLM de plus de 19 % et établissant un nouvel état de l'art. Nous avons également observé des performances approchant ou dépassant l'état de l'art sur les jeux de données MedMCQA, PubMedQA et MMLU sur des sujets cliniques.
Nous avons effectué des évaluations humaines détaillées sur des questions à réponse longue selon plusieurs axes pertinents pour les applications cliniques. Dans un classement comparatif par paires de 1066 questions médicales grand public, les médecins ont préféré les réponses de Med-PaLM 2 à celles produites par des médecins sur huit des neuf axes relatifs à l'utilité clinique (p < 0,001). Nous avons également observé des améliorations significatives par rapport à Med-PaLM sur chaque axe d'évaluation (p < 0,001) sur de nouveaux jeux de données de 240 questions à réponse longue "adversariales" pour explorer les limites des LLM.
Bien que des études supplémentaires soient nécessaires pour valider l'efficacité de ces modèles dans des contextes réels, ces résultats mettent en lumière des progrès rapides vers des performances de niveau médecin dans la réponse aux questions médicales.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand
challenges" ranging from Go to protein-folding. The capability to retrieve
medical knowledge, reason over it, and answer medical questions comparably to
physicians has long been viewed as one such grand challenge.
Large language models (LLMs) have catalyzed significant progress in medical
question answering; Med-PaLM was the first model to exceed a "passing" score in
US Medical Licensing Examination (USMLE) style questions with a score of 67.2%
on the MedQA dataset. However, this and other prior work suggested significant
room for improvement, especially when models' answers were compared to
clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by
leveraging a combination of base LLM improvements (PaLM 2), medical domain
finetuning, and prompting strategies including a novel ensemble refinement
approach.
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM
by over 19% and setting a new state-of-the-art. We also observed performance
approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU
clinical topics datasets.
We performed detailed human evaluations on long-form questions along multiple
axes relevant to clinical applications. In pairwise comparative ranking of 1066
consumer medical questions, physicians preferred Med-PaLM 2 answers to those
produced by physicians on eight of nine axes pertaining to clinical utility (p
< 0.001). We also observed significant improvements compared to Med-PaLM on
every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form
"adversarial" questions to probe LLM limitations.
While further studies are necessary to validate the efficacy of these models
in real-world settings, these results highlight rapid progress towards
physician-level performance in medical question answering.