AutoMedBench: К медицинскому автоисследованию с помощью агентных моделей ИИ
AutoMedBench: Towards Medical AutoResearch with Agentic AI Models
June 1, 2026
Авторы: Junqi Liu, Salena Song, Yuhan Wang, Jiawei Mao, Hardy Chen, Xiaoke Huang, Tianhao Qi, Pengfei Guo, Yucheng Tang, Yufan He, Can Zhao, Andriy Myronenko, Dong Yang, Daguang Xu, Yuyin Zhou
cs.AI
Аннотация
Автономные агенты всё чаще используются для поддержки сквозных рабочих процессов медицинских AI-исследований, выходя за рамки изолированных задач прогнозирования или кратких ответов на клинические вопросы. Однако существующие бенчмарки для медицинских агентов в основном оценивают конечные результаты, предоставляя ограниченную информацию о поведении агентов в ходе исследовательского процесса. Для устранения этого пробела мы представляем AutoMedBench — бенчмарк, учитывающий рабочий процесс, для автономных медицинских AI-исследований, охватывающий разнообразные задачи медицинской визуализации и мультимодального вывода. Исполнение агентов организовано в единый пятиэтапный рабочий процесс (S1–S5): Планирование, Настройка, Валидация, Вывод и Отправка. Бенчмарк включает задачи с длительным горизонтом, каждый запуск которых в среднем состоит из 33 шагов агента, и охватывает пять исследовательских направлений: сегментация, улучшение изображений, визуальный ответ на вопросы (VQA), генерация отчетов и обнаружение поражений. Каждая задача оценивается на двух уровнях сложности, Lite и Standard, которые используют одни и те же данные и метрики, но различаются объёмом опорных указаний в задании. Каждый запуск оценивается как по итоговой производительности задачи, так и по поэтапным баллам (S1–S5), что позволяет проводить поэтапный анализ — от первоначального описания задачи до итогового представленного артефакта. По данным тысяч записанных запусков, поэтапное оценивание показывает, что в среднем Валидация является самым слабым этапом рабочего процесса, тогда как Настройка — самым сильным, что свидетельствует о том, что текущие агенты лучше подготовлены к созданию исполнимых конвейеров, чем к проверке их надёжности. Последующий анализ ошибок показывает, что сбои верификации и отправки доминируют среди маркированных ошибок, составляя соответственно 37,7% и 38,1% сработавших кодов, тогда как ошибки понимания задачи встречаются редко — 0,9%. При этом запуски с одним сработавшим кодом ошибки в среднем имеют на 48% ниже общий балл по сравнению с запусками без ошибок.
English
Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.