MedOpenClaw: 비정형 전체 연구 데이터를 추론하는 감사 가능 의료 영상 에이전트
MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
March 25, 2026
저자: Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan
cs.AI
초록
현재 의료 영상 작업에서 시각-언어 모델(VLM) 평가는 상당한 수작업이 필요한 사전 선별된 2D 이미지에 의존하여 임상 현실을 지나치게 단순화하고 있습니다. 이러한 설정은 실제 진단의 핵심 과제를 놓치고 있습니다: 진정한 임상 에이전트는 증거를 수집하고 궁극적으로 최종 결정을 지원하기 위해 여러 시퀀스 또는 모달리티에 걸친 전체 3D 볼륨을 능동적으로 탐색할 수 있어야 합니다. 이를 해결하기 위해 우리는 VLM이 표준 의료 도구나 뷰어(예: 3D Slicer) 내에서 동적으로 작동할 수 있도록 하는 감사 가능 런타임인 MEDOPENCLAW를 제안합니다. 이 런타임 위에 다중 시퀀스 뇌 MRI와 폐 CT/PET를 포함한 전체 연구 수준 의료 영상 벤치마크인 MEDFLOWBENCH를 도입합니다. 이는 뷰어 전용, 도구 사용, 개방형 방법 트랙에 걸쳐 의료 에이전트 능력을 체계적으로 평가합니다. 초기 결과는 중요한 통찰을 보여줍니다: 최첨단 LLM/VLM(예: Gemini 3.1 Pro, GPT-5.4)이 기본적인 연구 수준 작업을 해결하기 위해 뷰어를 성공적으로 탐색할 수는 있지만, 정확한 공간 기반 정보 부족으로 인해 전문 지원 도구에 접근할 수 있을 때 오히려 성능이 저하되는 역설적인 현상이 발생합니다. 정적 이미지 인식과 상호작용형 임상 워크플로우 간의 격차를 해소함으로써, MEDOPENCLAW와 MEDFLOWBENCH는 감사 가능한 전체 연구 수준 의료 영상 에이전트 개발을 위한 재현 가능한 기반을 마련합니다.
English
Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.