MedOpenClaw: Agentes de Imagenología Médica Auditables que Razonan sobre Estudios Completos No Cotejados
MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
March 25, 2026
Autores: Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan
cs.AI
Resumen
Actualmente, la evaluación de modelos de visión y lenguaje (VLM) en tareas de imagen médica simplifica en exceso la realidad clínica al basarse en imágenes 2D preseleccionadas que requieren una importante labor manual para su curación. Esta configuración pasa por alto el desafío central del diagnóstico en el mundo real: un agente clínico verdadero debe navegar activamente por volúmenes 3D completos a través de múltiples secuencias o modalidades para recopilar evidencia y, en última instancia, respaldar una decisión final. Para abordar esto, proponemos MEDOPENCLAW, un entorno de ejecución auditable diseñado para permitir que los VLM operen dinámicamente dentro de herramientas o visores médicos estándar (por ejemplo, 3D Slicer). Sobre este entorno, presentamos MEDFLOWBENCH, un benchmark de imágenes médicas de estudio completo que cubre resonancias magnéticas cerebrales multisecuencia y tomografías computarizadas/PET de pulmón. Evalúa sistemáticamente las capacidades agentivas médicas a través de modalidades de solo visor, uso de herramientas y método abierto. Los resultados iniciales revelan una conclusión crítica: si bien los LLM/VLM de vanguardia (por ejemplo, Gemini 3.1 Pro y GPT-5.4) pueden navegar con éxito en el visor para resolver tareas básicas a nivel de estudio, su rendimiento paradójicamente se degrada cuando se les da acceso a herramientas de soporte profesional debido a una falta de fundamentación espacial precisa. Al cerrar la brecha entre la percepción de imágenes estáticas y los flujos de trabajo clínicos interactivos, MEDOPENCLAW y MEDFLOWBENCH establecen una base reproducible para desarrollar agentes de imagen médica auditables para estudios completos.
English
Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.