MedSAM3: Profundizando en Segmentar Cualquier Cosa con Conceptos Médicos
MedSAM3: Delving into Segment Anything with Medical Concepts
November 24, 2025
Autores: Anglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen
cs.AI
Resumen
La segmentación de imágenes médicas es fundamental para los descubrimientos biomédicos. Los métodos existentes carecen de generalización y requieren una extensa y laboriosa anotación manual para cada nueva aplicación clínica. Aquí presentamos MedSAM-3, un modelo de segmentación médica activable por texto para la segmentación de imágenes y videos médicos. Al ajustar la arquitectura del Segment Anything Model (SAM) 3 con imágenes médicas emparejadas con etiquetas conceptuales semánticas, nuestro MedSAM-3 permite la Segmentación de Conceptos Activables (PCS) médica, lo que posibilita el direccionamiento preciso de estructuras anatómicas mediante descripciones textuales de vocabulario abierto, en lugar de depender únicamente de indicaciones geométricas. Además, introducimos el Agente MedSAM-3, un marco que integra Modelos de Lenguaje Grandes Multimodales (MLLMs) para realizar razonamientos complejos y refinamientos iterativos en un flujo de trabajo con agente en el bucle. Experimentos exhaustivos en diversas modalidades de imagen médica, incluyendo rayos X, resonancia magnética, ultrasonido, tomografía computarizada y video, demuestran que nuestro enfoque supera significativamente a los modelos especializados y de base existentes. Publicaremos nuestro código y modelo en https://github.com/Joey-S-Liu/MedSAM3.
English
Medical image segmentation is fundamental for biomedical discovery. Existing methods lack generalizability and demand extensive, time-consuming manual annotation for new clinical application. Here, we propose MedSAM-3, a text promptable medical segmentation model for medical image and video segmentation. By fine-tuning the Segment Anything Model (SAM) 3 architecture on medical images paired with semantic conceptual labels, our MedSAM-3 enables medical Promptable Concept Segmentation (PCS), allowing precise targeting of anatomical structures via open-vocabulary text descriptions rather than solely geometric prompts. We further introduce the MedSAM-3 Agent, a framework that integrates Multimodal Large Language Models (MLLMs) to perform complex reasoning and iterative refinement in an agent-in-the-loop workflow. Comprehensive experiments across diverse medical imaging modalities, including X-ray, MRI, Ultrasound, CT, and video, demonstrate that our approach significantly outperforms existing specialist and foundation models. We will release our code and model at https://github.com/Joey-S-Liu/MedSAM3.