의료 영상 분할을 위한 범용 프롬프트 기반 파운데이션 모델 Medical SAM3
Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation
January 15, 2026
저자: Chongcong Jiang, Tianxingjian Ding, Chuhan Song, Jiachen Tu, Ziyang Yan, Yihua Shao, Zhenyi Wang, Yuzhang Shang, Tianyu Han, Yu Tian
cs.AI
초록
SAM3와 같은 프롬프트 기반 분할 파운데이션 모델은 상호작용 및 개념 기반 프롬프팅을 통해 강력한 일반화 성능을 입증했습니다. 그러나 의료 영상 분야에 직접 적용하는 것은 심각한 도메인 차이, 특권적 공간 프롬프트의 부재, 복잡한 해부학적 및 체적 구조에 대한 추론 필요성으로 인해 제한됩니다. 본 연구에서는 대규모의 이기종 2D 및 3D 의료 영상 데이터셋(분할 마스크 및 텍스트 프롬프트 포함)을 통해 SAM3를 완전히 미세 조정하여 획득한, 범용 프롬프트 기반 의료 영상 분할 파운데이션 모델인 Medical SAM3를 제시합니다. 기본 SAM3에 대한 체계적 분석을 통해, 의료 데이터에서 성능이 현저히 저하되며 그 겉보기 경쟁력이 실측값 기반 경계 상자와 같은 강력한 기하학적 사전 지식에 크게 의존함을 확인했습니다. 이러한 발견은 프롬프트 엔지니어링만이 아닌 전체 모델 적응의 필요성을 시사합니다. 10가지 의료 영상 방식에 걸친 33개 데이터셋으로 SAM3 모델 파라미터를 미세 조정함으로써, Medical SAM3는 도메인 특화된 강건한 표현을 습득하면서도 프롬프트 기반 유연성을 유지합니다. 장기, 영상 방식, 차원에 걸친 광범위한 실험을 통해 특히 의미론적 모호성, 복잡한 형태학, 장거리 3D 문맥을 특징으로 하는 난제에서 일관적이고 상당한 성능 향상을 입증합니다. 본 연구 결과는 Medical SAM3를 의료 영상을 위한 범용 텍스트 유도 분할 파운데이션 모델로 정립하며, 심각한 도메인 차이 조건에서 강건한 프롬프트 기반 분할을 달성하기 위한 전체론적 모델 적응의 중요성을 강조합니다. 코드와 모델은 https://github.com/AIM-Research-Lab/Medical-SAM3에서 공개될 예정입니다.
English
Promptable segmentation foundation models such as SAM3 have demonstrated strong generalization capabilities through interactive and concept-based prompting. However, their direct applicability to medical image segmentation remains limited by severe domain shifts, the absence of privileged spatial prompts, and the need to reason over complex anatomical and volumetric structures. Here we present Medical SAM3, a foundation model for universal prompt-driven medical image segmentation, obtained by fully fine-tuning SAM3 on large-scale, heterogeneous 2D and 3D medical imaging datasets with paired segmentation masks and text prompts. Through a systematic analysis of vanilla SAM3, we observe that its performance degrades substantially on medical data, with its apparent competitiveness largely relying on strong geometric priors such as ground-truth-derived bounding boxes. These findings motivate full model adaptation beyond prompt engineering alone. By fine-tuning SAM3's model parameters on 33 datasets spanning 10 medical imaging modalities, Medical SAM3 acquires robust domain-specific representations while preserving prompt-driven flexibility. Extensive experiments across organs, imaging modalities, and dimensionalities demonstrate consistent and significant performance gains, particularly in challenging scenarios characterized by semantic ambiguity, complex morphology, and long-range 3D context. Our results establish Medical SAM3 as a universal, text-guided segmentation foundation model for medical imaging and highlight the importance of holistic model adaptation for achieving robust prompt-driven segmentation under severe domain shift. Code and model will be made available at https://github.com/AIM-Research-Lab/Medical-SAM3.