MedOpenClaw: Controleerbare medische beeldvormingsagenten die redeneren over onbewerkte volledige onderzoeken
MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
March 25, 2026
Auteurs: Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan
cs.AI
Samenvatting
Momenteel vereenvoudigt de evaluatie van vision-language-modellen (VLM's) voor medische beeldvormingstaken de klinische realiteit te veel door te vertrouwen op vooraf geselecteerde 2D-beelden, waarvan de samenstelling aanzienlijk handwerk vergt. Deze opzet mist de kernuitdaging van realistische diagnostiek: een echte klinische agent moet actief volledige 3D-volumes kunnen doorlopen, over meerdere sequenties of modaliteiten heen, om bewijs te verzamelen en uiteindelijk een eindbeslissing te ondersteunen. Om dit aan te pakken, stellen we MEDOPENCLAW voor, een auditeerbare runtime die is ontworpen om VLM's dynamisch te laten functioneren binnen standaard medische tools of viewers (bijv. 3D Slicer). Bovenop deze runtime introduceren we MEDFLOWBENCH, een benchmark voor medische beeldvorming op studiiveau die multi-sequentiële brain MRI en long CT/PET omvat. Deze benchmark evalueert systematisch medische agent-capaciteiten over viewer-only, tool-use en open-method tracks. Eerste resultaten onthullen een cruciaal inzicht: hoewel state-of-the-art LLM's/VLM's (bijv. Gemini 3.1 Pro en GPT-5.4) de viewer succesvol kunnen navigeren om basale taken op studieniveau op te lossen, verslechtert hun prestaties paradoxaal genoeg wanneer ze toegang krijgen tot professionele ondersteuningstools, vanwege een gebrek aan precieze ruimtelijke verankering. Door de kloof te overbruggen tussen statische beeldperceptie en interactieve klinische workflows, leggen MEDOPENCLAW en MEDFLOWBENCH een reproduceerbare basis voor de ontwikkeling van auditeerbare, volledige-studie medische beeldvormingsagentschappen.
English
Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.