SAM3 Medico: Un Modello di Base per la Segmentazione Universale di Immagini Mediche Guidata da Prompt

Abstract

I modelli di segmentazione foundation promptable come SAM3 hanno dimostrato forti capacità di generalizzazione attraverso prompt interattivi e basati su concetti. Tuttavia, la loro applicabilità diretta alla segmentazione di immagini mediche rimane limitata da severi domain shift, dall'assenza di prompt spaziali privilegiati e dalla necessità di ragionare su strutture anatomiche e volumetriche complesse. Qui presentiamo Medical SAM3, un modello foundation per la segmentazione universale di immagini mediche guidata da prompt, ottenuto addestrando completamente SAM3 su dataset di imaging medico 2D e 3D su larga scala ed eterogenei, con maschere di segmentazione abbinate e prompt testuali. Attraverso un'analisi sistematica del SAM3 vanilla, osserviamo che le sue prestazioni si degradano sostanzialmente sui dati medici, con la sua apparente competitività che dipende in larga misura da forti prior geometriche come bounding box derivate dalla ground truth. Questi risultati motivano un adattamento completo del modello che va oltre la sola prompt engineering. Addestrando i parametri del modello SAM3 su 33 dataset che coprono 10 modalità di imaging medico, Medical SAM3 acquisisce rappresentazioni robuste specifiche del dominio preservando la flessibilità guidata dai prompt. Esperimenti estensivi su organi, modalità di imaging e dimensionalità dimostrano miglioramenti prestazionali consistenti e significativi, specialmente in scenari complessi caratterizzati da ambiguità semantica, morfologia intricata e contesto 3D a lungo raggio. I nostri risultati stabiliscono Medical SAM3 come un modello foundation universale per la segmentazione guidata da testo nell'imaging medico e sottolineano l'importanza di un adattamento olistico del modello per ottenere una segmentazione robusta guidata da prompt sotto severi domain shift. Codice e modello saranno resi disponibili su https://github.com/AIM-Research-Lab/Medical-SAM3.

English

Promptable segmentation foundation models such as SAM3 have demonstrated strong generalization capabilities through interactive and concept-based prompting. However, their direct applicability to medical image segmentation remains limited by severe domain shifts, the absence of privileged spatial prompts, and the need to reason over complex anatomical and volumetric structures. Here we present Medical SAM3, a foundation model for universal prompt-driven medical image segmentation, obtained by fully fine-tuning SAM3 on large-scale, heterogeneous 2D and 3D medical imaging datasets with paired segmentation masks and text prompts. Through a systematic analysis of vanilla SAM3, we observe that its performance degrades substantially on medical data, with its apparent competitiveness largely relying on strong geometric priors such as ground-truth-derived bounding boxes. These findings motivate full model adaptation beyond prompt engineering alone. By fine-tuning SAM3's model parameters on 33 datasets spanning 10 medical imaging modalities, Medical SAM3 acquires robust domain-specific representations while preserving prompt-driven flexibility. Extensive experiments across organs, imaging modalities, and dimensionalities demonstrate consistent and significant performance gains, particularly in challenging scenarios characterized by semantic ambiguity, complex morphology, and long-range 3D context. Our results establish Medical SAM3 as a universal, text-guided segmentation foundation model for medical imaging and highlight the importance of holistic model adaptation for achieving robust prompt-driven segmentation under severe domain shift. Code and model will be made available at https://github.com/AIM-Research-Lab/Medical-SAM3.

SAM3 Medico: Un Modello di Base per la Segmentazione Universale di Immagini Mediche Guidata da Prompt

Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

Abstract

Support