MedSAM3: Eine Untersuchung von Segment Anything mit medizinischen Konzepten
MedSAM3: Delving into Segment Anything with Medical Concepts
November 24, 2025
papers.authors: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI
papers.abstract
Die medizinische Bildsegmentierung ist grundlegend für biomedizinische Entdeckungen. Bestehende Methoden mangelt es an Generalisierbarkeit und sie erfordern umfangreiche, zeitaufwändige manuelle Annotationen für neue klinische Anwendungen. Hier stellen wir MedSAM-3 vor, ein textpromptbares medizinisches Segmentierungsmodell für die medizinische Bild- und Videosegmentierung. Durch das Feinabstimmen der Segment-Anything-Model (SAM)-3-Architektur auf medizinischen Bildern, die mit semantischen Konzeptlabels gepaart sind, ermöglicht unser MedSAM-3 eine medizinische promptbare Konzeptsegmentierung (PCS), die eine präzise Zielung anatomischer Strukturen über open-vocabulary-Textbeschreibungen anstelle rein geometrischer Prompts erlaubt. Wir führen weiterhin den MedSAM-3-Agenten ein, ein Framework, das multimodale große Sprachmodelle (MLLMs) integriert, um komplexe Reasoningprozesse und iterative Verfeinerungen in einem Agent-in-the-Loop-Workflow durchzuführen. Umfassende Experimente über diverse medizinische Bildgebungsmodalitäten, einschließlich Röntgen, MRT, Ultraschall, CT und Video, demonstrieren, dass unser Ansatz bestehende spezialisierte und Foundation-Modelle signifikant übertrifft. Wir werden unseren Code und unser Modell unter https://github.com/Joey-S-Liu/MedSAM3 veröffentlichen.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.