MedAgentsBench: Evaluación de Modelos de Pensamiento y Marcos de Agentes para el Razonamiento Médico Complejo
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning
March 10, 2025
Autores: Xiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en los benchmarks existentes de preguntas y respuestas médicas. Este alto rendimiento dificulta cada vez más la evaluación significativa y la diferenciación de métodos avanzados. Presentamos MedAgentsBench, un benchmark que se centra en preguntas médicas desafiantes que requieren razonamiento clínico de múltiples pasos, formulación de diagnósticos y planificación de tratamientos, escenarios en los que los modelos actuales aún tienen dificultades a pesar de su fuerte rendimiento en pruebas estándar. Basándonos en siete conjuntos de datos médicos establecidos, nuestro benchmark aborda tres limitaciones clave en las evaluaciones existentes: (1) la prevalencia de preguntas directas en las que incluso los modelos base logran un alto rendimiento, (2) protocolos de muestreo y evaluación inconsistentes entre estudios, y (3) la falta de análisis sistemático de la interacción entre rendimiento, costo y tiempo de inferencia. A través de experimentos con varios modelos base y métodos de razonamiento, demostramos que los últimos modelos de pensamiento, DeepSeek R1 y OpenAI o3, exhiben un rendimiento excepcional en tareas complejas de razonamiento médico. Además, los métodos avanzados basados en agentes de búsqueda ofrecen relaciones prometedoras entre rendimiento y costo en comparación con enfoques tradicionales. Nuestro análisis revela brechas sustanciales de rendimiento entre familias de modelos en preguntas complejas e identifica selecciones óptimas de modelos para diferentes restricciones computacionales. Nuestro benchmark y marco de evaluación están disponibles públicamente en https://github.com/gersteinlab/medagents-benchmark.
English
Large Language Models (LLMs) have shown impressive performance on existing
medical question-answering benchmarks. This high performance makes it
increasingly difficult to meaningfully evaluate and differentiate advanced
methods. We present MedAgentsBench, a benchmark that focuses on challenging
medical questions requiring multi-step clinical reasoning, diagnosis
formulation, and treatment planning-scenarios where current models still
struggle despite their strong performance on standard tests. Drawing from seven
established medical datasets, our benchmark addresses three key limitations in
existing evaluations: (1) the prevalence of straightforward questions where
even base models achieve high performance, (2) inconsistent sampling and
evaluation protocols across studies, and (3) lack of systematic analysis of the
interplay between performance, cost, and inference time. Through experiments
with various base models and reasoning methods, we demonstrate that the latest
thinking models, DeepSeek R1 and OpenAI o3, exhibit exceptional performance in
complex medical reasoning tasks. Additionally, advanced search-based agent
methods offer promising performance-to-cost ratios compared to traditional
approaches. Our analysis reveals substantial performance gaps between model
families on complex questions and identifies optimal model selections for
different computational constraints. Our benchmark and evaluation framework are
publicly available at https://github.com/gersteinlab/medagents-benchmark.Summary
AI-Generated Summary