MedSAM3 : Exploration de Segment Anything avec des concepts médicaux
MedSAM3: Delving into Segment Anything with Medical Concepts
November 24, 2025
papers.authors: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI
papers.abstract
La segmentation d'images médicales est fondamentale pour les découvertes biomédicales. Les méthodes existantes manquent de généralisabilité et nécessitent une annotation manuelle extensive et chronique pour chaque nouvelle application clinique. Nous proposons ici MedSAM-3, un modèle de segmentation médicale guidable par texte pour la segmentation d'images et de vidéos médicales. En affinant l'architecture du Segment Anything Model (SAM) 3 sur des images médicales associées à des étiquettes conceptuelles sémantiques, notre MedSAM-3 permet une Segmentation de Concepts Guidable (PCS) médicale, autorisant le ciblage précis de structures anatomiques via des descriptions textuelles en vocabulaire libre plutôt que par des invites uniquement géométriques. Nous introduisons en outre l'Agent MedSAM-3, un cadre qui intègre des Modèles de Langue Multimodaux (MLLM) pour effectuer un raisonnement complexe et un raffinement itératif dans un workflow à agent-en-boucle. Des expériences exhaustives sur diverses modalités d'imagerie médicale, incluant les rayons X, l'IRM, l'échographie, la tomodensitométrie et la vidéo, démontrent que notre approche surpasse significativement les modèles spécialisés et de fondation existants. Nous publierons notre code et notre modèle à l'adresse https://github.com/Joey-S-Liu/MedSAM3.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.