MedOpenClaw: Agentes de Imagem Médica Auditáveis com Raciocínio sobre Estudos Completos Não Curados

Resumo

Atualmente, a avaliação de modelos visão-linguagem (VLMs) em tarefas de imagiologia médica simplifica excessivamente a realidade clínica ao depender de imagens 2D pré-selecionadas que exigem um trabalho manual significativo para serem curadas. Esta configuração ignora o desafio central dos diagnósticos do mundo real: um verdadeiro agente clínico deve navegar ativamente em volumes 3D completos através de múltiplas sequências ou modalidades para reunir evidências e, em última análise, apoiar uma decisão final. Para resolver isto, propomos o MEDOPENCLAW, um *runtime* auditável concebido para permitir que os VLMs operem dinamicamente dentro de ferramentas ou visualizadores médicos padrão (por exemplo, 3D Slicer). Sobre este *runtime*, introduzimos o MEDFLOWBENCH, um *benchmark* de imagiologia médica de estudo completo que abrange ressonância magnética cerebral multi-sequência e TC/PET pulmonar. Ele avalia sistematicamente as capacidades agentivas médicas através de pistas de apenas visualização, uso de ferramentas e método aberto. Os resultados iniciais revelam uma perceção crítica: embora os LLMs/VLMs de última geração (por exemplo, Gemini 3.1 Pro e GPT-5.4) consigam navegar com sucesso no visualizador para resolver tarefas básicas a nível de estudo, o seu desempenho degrada-se paradoxalmente quando lhes é dado acesso a ferramentas de suporte profissionais devido à falta de uma fundamentação espacial precisa. Ao colmatar a lacuna entre a perceção de imagem estática e os fluxos de trabalho clínicos interativos, o MEDOPENCLAW e o MEDFLOWBENCH estabelecem uma base reproduzível para o desenvolvimento de agentes de imagiologia média auditáveis e de estudo completo.

English

Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.