ChatPaper.aiChatPaper

MedSAM3: Approfondimento di Segment Anything con Concetti Medici

MedSAM3: Delving into Segment Anything with Medical Concepts

November 24, 2025
Autori: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI

Abstract

La segmentazione delle immagini mediche è fondamentale per la scoperta biomedica. I metodi esistenti mancano di generalizzabilità e richiedono annotazioni manuali estensive e dispendiose in termini di tempo per nuove applicazioni cliniche. Qui proponiamo MedSAM-3, un modello di segmentazione medica promptabile tramite testo per la segmentazione di immagini e video medici. Ottimizzando l'architettura del Segment Anything Model (SAM) 3 su immagini mediche abbinate a etichette concettuali semantiche, il nostro MedSAM-3 abilita la Segmentazione Concettuale Promptabile (PCS) medica, consentendo il targeting preciso di strutture anatomiche tramite descrizioni testuali a vocabolario aperto anziché esclusivamente prompt geometrici. Introduciamo inoltre il MedSAM-3 Agent, un framework che integra Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) per eseguire ragionamenti complessi e perfezionamenti iterativi in un flusso di lavoro agent-in-the-loop. Esperimenti esaustivi su diverse modalità di imaging medico, inclusi raggi X, risonanza magnetica, ecografia, tomografia computerizzata e video, dimostrano che il nostro approccio supera significativamente i modelli specialistici e foundation esistenti. Rilasceremo il nostro codice e modello all'indirizzo https://github.com/Joey-S-Liu/MedSAM3.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.
PDF473December 1, 2025