MedOpenClaw: Аудируемые агенты медицинской визуализации с логическим выводом на основе некурируемых полных исследований
MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
March 25, 2026
Авторы: Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan
cs.AI
Аннотация
В настоящее время оценка моделей «визуальный язык» (VLM) для задач медицинской визуализации чрезмерно упрощает клиническую реальность, полагаясь на предварительно отобранные 2D-изображения, подготовка которых требует значительных ручных усилий. Такая постановка задачи упускает ключевую сложность реальной диагностики: истинный клинический агент должен активно исследовать полные 3D-томограммы across различных последовательностей или модальностей, чтобы собрать доказательства и в конечном итоге обосновать окончательное решение. Чтобы решить эту проблему, мы предлагаем MEDOPENCLAW — контролируемую среду выполнения, позволяющую VLM динамически работать в стандартных медицинских инструментах или программах для просмотра (например, 3D Slicer). Поверх этой среды мы представляем MEDFLOWBENCH — бенчмарк для оценки полных исследований медицинской визуализации, охватывающий мультипоследовательную МРТ головного мозга и КТ/ПЭТ легких. Он систематически оценивает медицинские агентские возможности по трекам: только просмотр, использование инструментов и открытые методы. Первоначальные результаты выявляют ключевую закономерность: хотя передовые LLM/VLM (например, Gemini 3.1 Pro и GPT-5.4) способны успешно ориентироваться в программе просмотра для решения базовых задач на уровне исследования, их производительность парадоксальным образом ухудшается при предоставлении доступа к профессиональным инструментам поддержки из-за отсутствия точной пространственной привязки. Преодолевая разрыв между восприятием статических изображений и интерактивными клиническими рабочими процессами, MEDOPENCLAW и MEDFLOWBENCH создают воспроизводимую основу для разработки контролируемых агентов медицинской визуализации, работающих с полными исследованиями.
English
Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.