MedOpenClaw: Agenti di Imaging Medico Verificabili che Ragionano su Studi Completi Non Curati
MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
March 25, 2026
Autori: Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan
cs.AI
Abstract
Attualmente, la valutazione dei modelli visione-linguaggio (VLM) per compiti di imaging medico semplifica eccessivamente la realtà clinica, basandosi su immagini 2D pre-selezionate che richiedono un notevole lavoro manuale per la loro preparazione. Questa impostazione trascura la sfida fondamentale della diagnostica nel mondo reale: un vero agente clinico deve essere in grado di navigare attivamente volumi 3D completi attraverso sequenze o modalità multiple per raccogliere evidenze e supportare infine una decisione finale. Per affrontare questo problema, proponiamo MEDOPENCLAW, un runtime verificabile progettato per permettere ai VLM di operare dinamicamente all'interno di strumenti o visualizzatori medici standard (ad esempio, 3D Slicer). Su questo runtime, introduciamo MEDFLOWBENCH, un benchmark di imaging medico a livello di studio completo che copre risonanza magnetica cerebrale multi-sequenza e TC/PET polmonare. Esso valuta sistematicamente le capacità agentiche mediche attraverso tre percorsi: solo visualizzatore, uso di strumenti e metodi aperti. I risultati iniziali rivelano un'osservazione critica: sebbene i migliori LLM/VLM all'avanguardia (ad esempio, Gemini 3.1 Pro e GPT-5.4) siano in grado di navigare con successo nel visualizzatore per risolvere compiti di base a livello di studio, le loro prestazioni paradossalmente peggiorano quando viene loro dato accesso a strumenti di supporto professionali, a causa di una mancanza di ancoraggio spaziale preciso. Colmando il divario tra la percezione su immagini statiche e i flussi di lavoro clinici interattivi, MEDOPENCLAW e MEDFLOWBENCH pongono le basi riproducibili per lo sviluppo di agenti di imaging medico verificabili e basati sullo studio completo.
English
Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.