AutoMedBench: Naar Medisch Auto-Onderzoek met Agentische AI-modellen

Samenvatting

Van autonome agenten wordt in toenemende mate verwacht dat zij end-to-end medische AI-onderzoeksworkflows ondersteunen, verdergaand dan geïsoleerde voorspellingstaken of het beantwoorden van korte klinische vragen. Echter, bestaande medische agentbenchmarks evalueren voornamelijk einduitkomsten, waardoor er beperkt inzicht is in het gedrag van agenten binnen het onderzoeksproces. Om deze leemte aan te pakken, presenteren we AutoMedBench, een workflow-bewuste benchmark voor autonoom medisch AI-onderzoek voor diverse medische beeldvormings- en multimodale inferentietaken, waarbij de agentuitvoering wordt georganiseerd in een uniforme vijfstappenworkflow (S1-S5): Plan, Setup, Validate, Inference en Submit. Het omvat langlopende taken met gemiddeld 33 agentbeurten per run, verspreid over vijf onderzoekstracks: segmentatie, beeldverbetering, visuele vraagbeantwoording (VQA), rapportgeneratie en laesiedetectie. Elke taak wordt geëvalueerd op twee moeilijkheidsniveaus, Lite en Standaard, die dezelfde data en metrieken gebruiken, maar verschillen in de hoeveelheid taakbeschrijvingsondersteuning (scaffolding), en elke run wordt gescoord op basis van zowel de uiteindelijke taakprestatie als S1-S5-stapenscores, waardoor analyse op stappeniveau mogelijk is, van de initiële taakbeschrijving tot het uiteindelijk ingediende artefact. In duizenden geregistreerde runs toont scoring op stappeniveau aan dat Validate gemiddeld de zwakste workflowstap is, terwijl Setup de sterkste is, wat suggereert dat huidige agenten beter zijn in het uitvoerbaar maken van pipelines dan in het verifiëren van hun betrouwbaarheid. Foutanalyse na afloop laat verder zien dat verificatie- en indieningsfouten de getagde fouten domineren, met respectievelijk 37,7% en 38,1% van de geactiveerde codes, terwijl taakbegripsfouten zeldzaam zijn met 0,9%, en runs met één geactiveerde foutcode gemiddeld een 48% lagere overall score hebben dan runs zonder foutcode.

English

Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.