MedAgentsBench: 복잡한 의료 추론을 위한 사고 모델과 에이전트 프레임워크 벤치마킹
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning
March 10, 2025
저자: Xiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein
cs.AI
초록
대형 언어 모델(LLMs)은 기존의 의학 질의응답 벤치마크에서 인상적인 성능을 보여왔습니다. 이러한 높은 성능은 고급 방법론을 의미 있게 평가하고 차별화하기 점점 더 어렵게 만들고 있습니다. 우리는 현재 모델들이 표준 테스트에서는 강력한 성능을 보이지만 여전히 어려움을 겪는 다단계 임상 추론, 진단 수립, 치료 계획이 필요한 도전적인 의학 질문에 초점을 맞춘 MedAgentsBench 벤치마크를 제시합니다. 7개의 기존 의학 데이터셋을 기반으로 한 우리의 벤치마크는 기존 평가의 세 가지 주요 한계를 해결합니다: (1) 기본 모델도 높은 성능을 달성할 수 있는 단순한 질문의 과다, (2) 연구 간 일관되지 않은 샘플링 및 평가 프로토콜, (3) 성능, 비용, 추론 시간 간의 상호작용에 대한 체계적인 분석의 부재. 다양한 기본 모델과 추론 방법을 사용한 실험을 통해, 최신 사고 모델인 DeepSeek R1과 OpenAI o3가 복잡한 의학 추론 작업에서 탁월한 성능을 보임을 입증했습니다. 또한, 고급 검색 기반 에이전트 방법은 전통적인 접근 방식에 비해 유망한 성능 대비 비용 효율성을 제공합니다. 우리의 분석은 복잡한 질문에서 모델 계열 간의 상당한 성능 격차를 보여주며, 다양한 계산 제약 조건에 대한 최적의 모델 선택을 식별합니다. 우리의 벤치마크와 평가 프레임워크는 https://github.com/gersteinlab/medagents-benchmark에서 공개적으로 이용 가능합니다.
English
Large Language Models (LLMs) have shown impressive performance on existing
medical question-answering benchmarks. This high performance makes it
increasingly difficult to meaningfully evaluate and differentiate advanced
methods. We present MedAgentsBench, a benchmark that focuses on challenging
medical questions requiring multi-step clinical reasoning, diagnosis
formulation, and treatment planning-scenarios where current models still
struggle despite their strong performance on standard tests. Drawing from seven
established medical datasets, our benchmark addresses three key limitations in
existing evaluations: (1) the prevalence of straightforward questions where
even base models achieve high performance, (2) inconsistent sampling and
evaluation protocols across studies, and (3) lack of systematic analysis of the
interplay between performance, cost, and inference time. Through experiments
with various base models and reasoning methods, we demonstrate that the latest
thinking models, DeepSeek R1 and OpenAI o3, exhibit exceptional performance in
complex medical reasoning tasks. Additionally, advanced search-based agent
methods offer promising performance-to-cost ratios compared to traditional
approaches. Our analysis reveals substantial performance gaps between model
families on complex questions and identifies optimal model selections for
different computational constraints. Our benchmark and evaluation framework are
publicly available at https://github.com/gersteinlab/medagents-benchmark.Summary
AI-Generated Summary