ChatPaper.aiChatPaper

MedSAM3: 医療概念によるSegment Anythingの探求

MedSAM3: Delving into Segment Anything with Medical Concepts

November 24, 2025
著者: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI

要旨

医用画像セグメンテーションは生体医学的発見の基盤技術である。既存手法は一般性に欠け、新たな臨床応用には時間を要する大量の手動アノテーションを必要とする。本論文では、医用画像・動画セグメンテーションのためのテキストプロンプト対応モデルMedSAM-3を提案する。セグメントエニシングモデル(SAM)3アーキテクチャを、意味的概念ラベルとペアにした医用画像でファインチューニングすることで、MedSAM-3は医用プロンプト対応概念セグメンテーション(PCS)を実現し、幾何学的プロンプトのみならずオープン語彙のテキスト記述による解剖学的構造の精密な標的化を可能にする。さらに、マルチモーダル大規模言語モデル(MLLM)を統合し、エージェントインザループワークフローにおいて複雑な推論と反復的な改良を実行するMedSAM-3エージェントフレームワークを導入する。X線、MRI、超音波、CT、動画など多様な医用画像モダリティにおける総合的な実験により、本手法が既存の専門モデル及び基盤モデルを大幅に上回る性能を示すことを実証する。コードとモデルはhttps://github.com/Joey-S-Liu/MedSAM3で公開予定である。
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.
PDF473December 1, 2025