ChatPaper.aiChatPaper

MedSAM3: 의학 개념을 통한 Segment Anything 심층 탐구

MedSAM3: Delving into Segment Anything with Medical Concepts

November 24, 2025
저자: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI

초록

의료 영상 분할은 생의학적 발견의 기초적 과제입니다. 기존 방법론은 일반화 능력이 부족하며 새로운 임상 적용을 위해 방대하고 시간 소모적인 수동 주석이 필요합니다. 본 연구에서는 의료 영상 및 비디오 분할을 위한 텍스트 프롬프트 가능 의료 분할 모델인 MedSAM-3를 제안합니다. 의미론적 개념 레이블이 결합된 의료 영상으로 Segment Anything Model(SAM) 3 아키텍처를 미세 조정함으로써, 우리의 MedSAM-3는 기하학적 프롬프트에만 의존하지 않고 개방형 어휘 텍스트 설명을 통한 해부학적 구조의 정밀한 타겟팅을 가능하게 하는 의료 프롬프트 가능 개념 분할(PCS)을 구현합니다. 또한 MLLM(다중 모드 대형 언어 모델)을 통합하여 에이전트 참여형 워크플로우에서 복잡한 추론과 반복적 정제를 수행하는 MedSAM-3 에이전트 프레임워크를 도입합니다. X선, MRI, 초음파, CT 및 비디오를 포함한 다양한 의료 영상 방식에 걸친 포괄적 실험을 통해 우리의 접근법이 기존 전문 모델 및 파운데이션 모델을 크게 능가함을 입증합니다. 코드와 모델은 https://github.com/Joey-S-Liu/MedSAM3에서 공개할 예정입니다.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.
PDF473December 1, 2025