MedSAM3: Исследование сегментации чего угодно с использованием медицинских концепций
MedSAM3: Delving into Segment Anything with Medical Concepts
November 24, 2025
Авторы: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI
Аннотация
Сегментация медицинских изображений является фундаментальной задачей для биомедицинских исследований. Существующие методы страдают от недостаточной обобщающей способности и требуют трудоемкой ручной разметки для новых клинических применений. Мы представляем MedSAM-3 — модель для сегментации медицинских изображений и видео с текстовыми промптами. Путем дообучения архитектуры Segment Anything Model (SAM) 3 на медицинских изображениях с семантическими концептуальными метками наша модель MedSAM-3 реализует концептуальную сегментацию по промптам (Promptable Concept Segmentation, PCS), позволяя точно выделять анатомические структуры через открытые текстовые описания вместо исключительно геометрических промптов. Дополнительно мы представляем MedSAM-3 Agent — фреймворк, интегрирующий мультимодальные большие языковые модели (Multimodal Large Language Models, MLLMs) для выполнения сложных логических выводов и итеративного уточнения в рамках workflow с агентом в цикле. Комплексные эксперименты на различных модальностях медицинской визуализации, включая рентген, МРТ, УЗИ, КТ и видео, демонстрируют значительное преимущество нашего подхода по сравнению с существующими специализированными и базовыми моделями. Код и модель будут доступны по адресу: https://github.com/Joey-S-Liu/MedSAM3.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.