ChatPaper.aiChatPaper

전문가 수준의 의학 질문 응답을 향한 대형 언어 모델의 활용

Towards Expert-Level Medical Question Answering with Large Language Models

May 16, 2023
저자: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan
cs.AI

초록

최근 인공지능(AI) 시스템들은 바둑부터 단백질 접힘에 이르기까지 다양한 "그랜드 챌린지"에서 중요한 이정표를 달성해 왔습니다. 의학 지식을 검색하고 이를 추론하며 의사와 비슷한 수준으로 의학 질문에 답변하는 능력은 오랫동안 그러한 그랜드 챌린지 중 하나로 여겨져 왔습니다. 대형 언어 모델(LLM)은 의학 질문 답변 분야에서 상당한 진전을 촉진했으며, Med-PaLM은 MedQA 데이터셋에서 67.2%의 점수를 기록하며 미국 의사 면허 시험(USMLE) 스타일 질문에서 "합격" 점수를 넘어선 첫 번째 모델이 되었습니다. 그러나 이와 같은 이전 연구들은 특히 모델의 답변을 임상의의 답변과 비교했을 때 상당한 개선의 여지가 있음을 시사했습니다. 여기서 우리는 기본 LLM 개선(PaLM 2), 의학 도메인 파인튜닝, 그리고 새로운 앙상블 정제 접근법을 포함한 프롬프트 전략을 결합하여 이러한 격차를 해소한 Med-PaLM 2를 소개합니다. Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%의 점수를 기록하며, Med-PaLM보다 19% 이상 향상된 성능을 보여주고 새로운 최첨단 기술을 설정했습니다. 또한 우리는 MedMCQA, PubMedQA, MMLU 임상 주제 데이터셋에서도 최첨단 기술에 근접하거나 이를 초과하는 성능을 관찰했습니다. 우리는 임상 응용과 관련된 여러 측면에서 장문형 질문에 대한 상세한 인간 평가를 수행했습니다. 1066개의 소비자 의학 질문에 대한 쌍별 비교 순위에서, 의사들은 임상 유용성과 관련된 9개 측면 중 8개에서 Med-PaLM 2의 답변을 의사가 작성한 답변보다 선호했습니다(p < 0.001). 또한, LLM의 한계를 탐구하기 위해 새로 도입된 240개의 장문형 "적대적" 질문 데이터셋에서도 Med-PaLM과 비교하여 모든 평가 측면에서 상당한 개선을 관찰했습니다(p < 0.001). 이러한 모델들의 실제 환경에서의 효능을 검증하기 위해서는 추가 연구가 필요하지만, 이러한 결과들은 의학 질문 답변 분야에서 의사 수준의 성능으로의 빠른 진전을 강조합니다.
English
Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.
PDF52December 15, 2024