К экспертному уровню ответов на медицинские вопросы с использованием крупных языковых моделей
Towards Expert-Level Medical Question Answering with Large Language Models
May 16, 2023
Авторы: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Аннотация
Последние достижения в области искусственного интеллекта (ИИ) позволили преодолеть ключевые рубежи в решении "грандиозных задач", начиная от игры в го и заканчивая предсказанием структуры белков. Способность извлекать медицинские знания, анализировать их и отвечать на медицинские вопросы на уровне врачей долгое время считалась одной из таких задач.
Крупные языковые модели (LLM) значительно продвинули решение медицинских вопросов; модель Med-PaLM стала первой, преодолевшей "проходной" балл в вопросах, аналогичных экзамену на медицинскую лицензию в США (USMLE), с результатом 67,2% на наборе данных MedQA. Однако это и другие предыдущие исследования показали значительный потенциал для улучшения, особенно при сравнении ответов моделей с ответами врачей. В данной работе мы представляем Med-PaLM 2, которая устраняет эти пробелы за счет улучшений базовой LLM (PaLM 2), тонкой настройки в медицинской области и стратегий промптинга, включая новый подход к ансамблю и уточнению.
Med-PaLM 2 достигла результата до 86,5% на наборе данных MedQA, улучшив показатель Med-PaLM более чем на 19% и установив новый рекорд. Мы также наблюдали результаты, приближающиеся или превосходящие современные стандарты на наборах данных MedMCQA, PubMedQA и MMLU по клиническим темам.
Мы провели детальную оценку ответов на длинные вопросы по нескольким критериям, важным для клинического применения. В парном сравнительном ранжировании 1066 медицинских вопросов от потребителей врачи предпочли ответы Med-PaLM 2 ответам, составленным врачами, по восьми из девяти критериев, связанных с клинической полезностью (p < 0,001). Мы также отметили значительные улучшения по сравнению с Med-PaLM по всем оценочным критериям (p < 0,001) на новых наборах данных из 240 длинных "адверсариальных" вопросов, направленных на выявление ограничений LLM.
Хотя необходимы дальнейшие исследования для подтверждения эффективности этих моделей в реальных условиях, полученные результаты демонстрируют быстрый прогресс в достижении уровня врачей в ответах на медицинские вопросы.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand
challenges" ranging from Go to protein-folding. The capability to retrieve
medical knowledge, reason over it, and answer medical questions comparably to
physicians has long been viewed as one such grand challenge.
Large language models (LLMs) have catalyzed significant progress in medical
question answering; Med-PaLM was the first model to exceed a "passing" score in
US Medical Licensing Examination (USMLE) style questions with a score of 67.2%
on the MedQA dataset. However, this and other prior work suggested significant
room for improvement, especially when models' answers were compared to
clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by
leveraging a combination of base LLM improvements (PaLM 2), medical domain
finetuning, and prompting strategies including a novel ensemble refinement
approach.
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM
by over 19% and setting a new state-of-the-art. We also observed performance
approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU
clinical topics datasets.
We performed detailed human evaluations on long-form questions along multiple
axes relevant to clinical applications. In pairwise comparative ranking of 1066
consumer medical questions, physicians preferred Med-PaLM 2 answers to those
produced by physicians on eight of nine axes pertaining to clinical utility (p
< 0.001). We also observed significant improvements compared to Med-PaLM on
every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form
"adversarial" questions to probe LLM limitations.
While further studies are necessary to validate the efficacy of these models
in real-world settings, these results highlight rapid progress towards
physician-level performance in medical question answering.