AutoMedBench: Hacia la Autoinvestigación Médica con Modelos de IA Agénticos
AutoMedBench: Towards Medical AutoResearch with Agentic AI Models
June 1, 2026
Autores: Junqi Liu, Salena Song, Yuhan Wang, Jiawei Mao, Hardy Chen, Xiaoke Huang, Tianhao Qi, Pengfei Guo, Yucheng Tang, Yufan He, Can Zhao, Andriy Myronenko, Dong Yang, Daguang Xu, Yuyin Zhou
cs.AI
Resumen
Se espera cada vez más que los agentes autónomos respalden flujos de trabajo integrales de investigación en IA médica, yendo más allá de tareas de predicción aisladas o respuestas breves a preguntas clínicas. Sin embargo, los puntos de referencia existentes para agentes médicos evalúan principalmente los resultados finales, proporcionando una visibilidad limitada del comportamiento del agente durante el proceso de investigación. Para abordar esta brecha, presentamos AutoMedBench, un punto de referencia consciente del flujo de trabajo para la investigación autónoma en IA médica en diversas tareas de imágenes médicas e inferencia multimodal, organizando la ejecución del agente en un flujo de trabajo unificado de cinco etapas (S1-S5): Planificar, Configurar, Validar, Inferir y Enviar. Comprende tareas de largo horizonte con un promedio de 33 turnos de agente por ejecución, abarcando cinco líneas de investigación: segmentación, mejora de imágenes, respuesta visual a preguntas (VQA), generación de informes y detección de lesiones. Cada tarea se evalúa bajo dos niveles de dificultad, Lite y Estándar, que utilizan los mismos datos y métricas pero difieren en la cantidad de andamiaje del resumen de la tarea, y cada ejecución se puntúa utilizando tanto el rendimiento final de la tarea como las puntuaciones de las etapas S1-S5, lo que permite un análisis a nivel de etapa desde el resumen inicial de la tarea hasta el artefacto final enviado. A lo largo de miles de ejecuciones registradas, la puntuación a nivel de etapa revela que Validar es la etapa más débil del flujo de trabajo en promedio, mientras que Configurar es la más fuerte, lo que sugiere que los agentes actuales son mejores para hacer que los pipelines sean ejecutables que para verificar su fiabilidad. El análisis de errores posterior a la ejecución muestra además que los fallos de verificación y envío dominan los errores etiquetados, representando el 37,7% y el 38,1% de los códigos disparados respectivamente, mientras que los errores de comprensión de la tarea son raros con un 0,9%, y las ejecuciones con un código de error disparado tienen una puntuación general un 48% menor que las ejecuciones sin ningún código de error en promedio.
English
Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.