Medical SAM3:ユニバーサルプロンプト駆動型医療画像セグメンテーションのための基盤モデル
Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation
January 15, 2026
著者: Chongcong Jiang, Tianxingjian Ding, Chuhan Song, Jiachen Tu, Ziyang Yan, Yihua Shao, Zhenyi Wang, Yuzhang Shang, Tianyu Han, Yu Tian
cs.AI
要旨
SAM3のようなプロンプト可能なセグメンテーション基盤モデルは、対話型および概念ベースのプロンプティングを通じて強力な汎化能力を実証してきた。しかし、医療画像セグメンテーションへの直接的な適用性は、深刻なドメインシフト、特権的な空間プロンプトの欠如、複雑な解剖学的および体積構造に対する推論の必要性によって制限されている。本論文では、大規模で多様な2Dおよび3D医療画像データセットと対応するセグメンテーションマスク、テキストプロンプトを用いてSAM3を完全にファインチューニングすることで得られた、ユニバーサルなプロンプト駆動型医療画像セグメンテーションのための基盤モデルMedical SAM3を提案する。vanilla SAM3の系統的な分析を通じて、その性能が医療データにおいて大幅に低下し、見かけ上の競争力が正解データから導出されたバウンディングボックスなどの強力な幾何学的事前知識に大きく依存していることを観察した。これらの知見は、プロンプトエンジニアリングのみならずモデル全体の適応の必要性を動機付けている。10の医療画像モダリティにわたる33のデータセットでSAM3のモデルパラメータをファインチューニングすることにより、Medical SAM3はドメイン固有の頑健な表現を獲得しつつ、プロンプト駆動の柔軟性を保持する。臓器、画像モダリティ、次元性にわたる広範な実験により、特に意味的曖昧性、複雑な形態、長距離3Dコンテキストを特徴とする困難なシナリオにおいて、一貫した大幅な性能向上が実証された。我々の結果は、Medical SAM3を医療画像におけるユニバーサルなテキスト誘導型セグメンテーション基盤モデルとして確立し、深刻なドメインシフト下での頑健なプロンプト駆動セグメンテーションを実現するための包括的なモデル適応の重要性を明らかにする。コードとモデルはhttps://github.com/AIM-Research-Lab/Medical-SAM3で公開予定である。
English
Promptable segmentation foundation models such as SAM3 have demonstrated strong generalization capabilities through interactive and concept-based prompting. However, their direct applicability to medical image segmentation remains limited by severe domain shifts, the absence of privileged spatial prompts, and the need to reason over complex anatomical and volumetric structures. Here we present Medical SAM3, a foundation model for universal prompt-driven medical image segmentation, obtained by fully fine-tuning SAM3 on large-scale, heterogeneous 2D and 3D medical imaging datasets with paired segmentation masks and text prompts. Through a systematic analysis of vanilla SAM3, we observe that its performance degrades substantially on medical data, with its apparent competitiveness largely relying on strong geometric priors such as ground-truth-derived bounding boxes. These findings motivate full model adaptation beyond prompt engineering alone. By fine-tuning SAM3's model parameters on 33 datasets spanning 10 medical imaging modalities, Medical SAM3 acquires robust domain-specific representations while preserving prompt-driven flexibility. Extensive experiments across organs, imaging modalities, and dimensionalities demonstrate consistent and significant performance gains, particularly in challenging scenarios characterized by semantic ambiguity, complex morphology, and long-range 3D context. Our results establish Medical SAM3 as a universal, text-guided segmentation foundation model for medical imaging and highlight the importance of holistic model adaptation for achieving robust prompt-driven segmentation under severe domain shift. Code and model will be made available at https://github.com/AIM-Research-Lab/Medical-SAM3.