ChatPaper.aiChatPaper

MedSAM3: Verkenning van Segment Anything met medische concepten

MedSAM3: Delving into Segment Anything with Medical Concepts

November 24, 2025
Auteurs: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI

Samenvatting

Medische beeldsegmentatie is fundamenteel voor biomedische ontdekkingen. Bestaande methoden missen generaliseerbaarheid en vereisen uitgebreide, tijdrovende handmatige annotatie voor nieuwe klinische toepassingen. Hier presenteren wij MedSAM-3, een model voor medische beeld- en videosegmentatie dat via tekstprompts aanstuurbaar is. Door de Segment Anything Model (SAM) 3-architectuur te finetunen op medische beelden gekoppeld aan semantische conceptlabels, stelt onze MedSAM-3 Promptable Concept Segmentation (PCS) mogelijk, waarmee anatomische structuren nauwkeurig kunnen worden gelokaliseerd via open-vocabulary tekstbeschrijvingen in plaats van uitsluitend geometrische prompts. Wij introduceren verder de MedSAM-3 Agent, een raamwerk dat Multimodale Large Language Models (MLLMs) integreert om complexe redenering en iteratieve verfijning uit te voeren in een agent-in-the-loop workflow. Uitgebreide experimenten met diverse medische beeldvormingstechnieken, waaronder röntgenfoto's, MRI, echografie, CT en video, tonen aan dat onze aanpak bestaande gespecialiseerde en foundationmodellen significant overtreft. Onze code en model zullen worden vrijgegeven op https://github.com/Joey-S-Liu/MedSAM3.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.
PDF473December 1, 2025