ChatPaper.aiChatPaper

AutoMedBench : Vers l'AutoRecherche Médicale avec des Modèles d'IA Agentique

AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

June 1, 2026
Auteurs: Junqi Liu, Salena Song, Yuhan Wang, Jiawei Mao, Hardy Chen, Xiaoke Huang, Tianhao Qi, Pengfei Guo, Yucheng Tang, Yufan He, Can Zhao, Andriy Myronenko, Dong Yang, Daguang Xu, Yuyin Zhou
cs.AI

Résumé

Les agents autonomes sont de plus en plus appelés à soutenir des flux de travail de recherche en IA médicale de bout en bout, dépassant les tâches de prédiction isolées ou les réponses à des questions cliniques courtes. Cependant, les benchmarks existants pour les agents médicaux évaluent principalement les résultats finaux, offrant une visibilité limitée sur le comportement des agents au sein du processus de recherche. Pour combler cette lacune, nous présentons AutoMedBench, un benchmark conscient du flux de travail pour la recherche autonome en IA médicale couvrant diverses tâches d’imagerie médicale et d’inférence multimodale, organisant l’exécution des agents en un flux de travail unifié en cinq étapes (S1 à S5) : Planifier, Configurer, Valider, Inférer et Soumettre. Il comprend des tâches à long horizon, chaque exécution comptant en moyenne 33 tours d’agent, et s’étend sur cinq axes de recherche : segmentation, amélioration d’image, réponse à des questions visuelles (VQA), génération de rapports et détection de lésions. Chaque tâche est évaluée selon deux niveaux de difficulté, Lite et Standard, qui utilisent les mêmes données et métriques mais diffèrent par la quantité d’échafaudage dans le briefing de la tâche, et chaque exécution est notée à la fois sur la performance finale de la tâche et sur des scores par étape S1–S5, permettant une analyse au niveau des étapes depuis le briefing initial jusqu’à l’artefact final soumis. À travers des milliers d’exécutions enregistrées, la notation par étape révèle que Valider est en moyenne l’étape la plus faible du flux de travail, tandis que Configurer est la plus forte, suggérant que les agents actuels sont meilleurs pour rendre les pipelines exécutables que pour vérifier leur fiabilité. L’analyse des erreurs après exécution montre en outre que les échecs de vérification et de soumission dominent les erreurs étiquetées, représentant respectivement 37,7 % et 38,1 % des codes déclenchés, tandis que les erreurs de compréhension de la tâche sont rares, à 0,9 %, et que les exécutions avec un seul code d’erreur déclenché obtiennent en moyenne un score global inférieur de 48 % à celles sans aucun code d’erreur.
English
Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.