AutoMedBench: Auf dem Weg zur medizinischen Autoforschung mit agentischen KI-Modellen

Zusammenfassung

Autonome Agenten werden zunehmend dafür ausgelegt, end-to-end-Forschungsworkflows in der medizinischen KI zu unterstützen, über isolierte Vorhersageaufgaben oder kurze klinische Frage-Antwort-Szenarien hinaus. Bestehende Benchmarks für medizinische Agenten bewerten jedoch hauptsächlich die endgültigen Ergebnisse und bieten nur begrenzte Einblicke in das Verhalten der Agenten innerhalb des Forschungsprozesses. Um diese Lücke zu schließen, präsentieren wir AutoMedBench, einen workflow-bewussten Benchmark für autonome medizinische KI-Forschung über verschiedene medizinische Bildgebungs- und multimodale Inferenzaufgaben hinweg, der die Ausführung der Agenten in einen einheitlichen fünfstufigen Arbeitsablauf (S1–S5) gliedert: Planen, Einrichten, Validieren, Inferieren und Einreichen. Er umfasst langfristige Aufgaben, wobei jeder Durchlauf durchschnittlich 33 Agentenschritte umfasst und fünf Forschungsspuren abdeckt: Segmentierung, Bildverbesserung, visuelle Beantwortung von Fragen (VQA), Berichtserstellung und Läsionserkennung. Jede Aufgabe wird in zwei Schwierigkeitsstufen bewertet – Lite und Standard –, die dieselben Daten und Metriken verwenden, sich jedoch im Umfang der Aufgabenbeschreibungs-Gerüste unterscheiden. Jeder Durchlauf wird sowohl anhand der endgültigen Aufgabenerfüllung als auch der Stufenbewertungen S1–S5 benotet, was eine stufenbezogene Analyse von der anfänglichen Aufgabenbeschreibung bis zum endgültig eingereichten Artefakt ermöglicht. Über Tausende von aufgezeichneten Durchläufen hinweg zeigt die stufenbezogene Bewertung, dass Validieren im Durchschnitt die schwächste Workflow-Stufe ist, während Einrichten die stärkste ist, was darauf hindeutet, dass aktuelle Agenten besser darin sind, Pipelines ausführbar zu machen, als deren Zuverlässigkeit zu überprüfen. Die Fehleranalyse nach dem Durchlauf zeigt zudem, dass Verifikations- und Einreichungsfehler die gekennzeichneten Fehler dominieren und 37,7 % bzw. 38,1 % der ausgelösten Codes ausmachen, während Aufgabenverständnisfehler mit 0,9 % selten sind. Durchläufe mit einem ausgelösten Fehlercode weisen im Durchschnitt eine um 48 % niedrigere Gesamtpunktzahl auf als Durchläufe ohne Fehlercode.

English

Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.