MedOpenClaw : Agents d'imagerie médicale vérifiables raisonnant sur des études complètes non-curatées

Résumé

Actuellement, l'évaluation des modèles vision-langage (VLM) pour les tâches d'imagerie médicale simplifie à l'excès la réalité clinique en s'appuyant sur des images 2D présélectionnées dont la curation nécessite un travail manuel important. Cette configuration ignore le défi fondamental des diagnostics en conditions réelles : un véritable agent clinique doit naviguer activement dans des volumes 3D complets, couvrant plusieurs séquences ou modalités, pour recueillir des preuves et étayer une décision finale. Pour remédier à cela, nous proposons MEDOPENCLAW, un environnement d'exécution vérifiable conçu pour permettre aux VLM d'opérer dynamiquement au sein d'outils ou de visualiseurs médicaux standard (par exemple, 3D Slicer). Sur cette base, nous présentons MEDFLOWBENCH, un benchmark d'imagerie médicale à l'échelle d'une étude complète, couvrant l'IRM cérébrale multi-séquences et la TEP/TDM pulmonaire. Il évalue systématiquement les capacités agentielles médicales selon trois axes : visualisation seule, utilisation d'outils et méthodes ouvertes. Les résultats initiaux révèlent un constat crucial : si les LLM/VLM de pointe (par exemple, Gemini 3.1 Pro et GPT-5.4) peuvent naviguer avec succès dans le visualiseur pour résoudre des tâches basiques au niveau de l'étude, leurs performances se dégradent paradoxalement lorsqu'ils ont accès à des outils de support professionnels, en raison d'un manque d'ancrage spatial précis. En comblant le fossé entre la perception d'images statiques et les flux de travail cliniques interactifs, MEDOPENCLAW et MEDFLOWBENCH établissent une base reproductible pour le développement d'agents d'imagerie médicale vérifiables, opérant sur des études complètes.

English

Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.

MedOpenClaw : Agents d'imagerie médicale vérifiables raisonnant sur des études complètes non-curatées

MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies

Résumé

Support