AutoMedBench: Rumo à AutoPesquisa Médica com Modelos de IA Agêntica
AutoMedBench: Towards Medical AutoResearch with Agentic AI Models
June 1, 2026
Autores: Junqi Liu, Salena Song, Yuhan Wang, Jiawei Mao, Hardy Chen, Xiaoke Huang, Tianhao Qi, Pengfei Guo, Yucheng Tang, Yufan He, Can Zhao, Andriy Myronenko, Dong Yang, Daguang Xu, Yuyin Zhou
cs.AI
Resumo
Espera-se cada vez mais que agentes autônomos apoiem fluxos de trabalho de pesquisa médica com IA de ponta a ponta, indo além de tarefas isoladas de predição ou respostas a perguntas clínicas de formato curto. No entanto, os benchmarks existentes para agentes médicos avaliam principalmente os resultados finais, oferecendo visibilidade limitada sobre o comportamento do agente dentro do processo de pesquisa. Para preencher essa lacuna, apresentamos o AutoMedBench, um benchmark consciente do fluxo de trabalho para pesquisa autônoma em IA médica em diversas tarefas de imagem médica e inferência multimodal, organizando a execução do agente em um fluxo de trabalho unificado de cinco estágios (S1-S5): Planejamento, Configuração, Validação, Inferência e Submissão. Ele compreende tarefas de longo horizonte, com cada execução tendo em média 33 turnos de agente, abrangendo cinco trilhas de pesquisa: segmentação, melhoria de imagem, resposta a perguntas visuais (VQA), geração de relatórios e detecção de lesões. Cada tarefa é avaliada em dois níveis de dificuldade, Lite e Standard, que utilizam os mesmos dados e métricas, mas diferem na quantidade de suporte estrutural do resumo da tarefa, e cada execução é pontuada usando tanto o desempenho final da tarefa quanto as pontuações dos estágios S1-S5, permitindo uma análise em nível de estágio desde o resumo inicial da tarefa até o artefato final submetido. Em milhares de execuções registradas, a pontuação em nível de estágio revela que Validação é o estágio do fluxo de trabalho mais fraco em média, enquanto Configuração é o mais forte, sugerindo que os agentes atuais são melhores em tornar os pipelines executáveis do que em verificar sua confiabilidade. A análise de erros pós-execução mostra ainda que falhas de verificação e submissão dominam os erros etiquetados, representando 37,7% e 38,1% dos códigos disparados, respectivamente, enquanto erros de compreensão da tarefa são raros, com 0,9%, e execuções com um código de erro disparado têm, em média, uma pontuação geral 48% menor do que execuções sem nenhum código de erro.
English
Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.