MedSAM2: Segmentación de Cualquier Elemento en Imágenes y Videos Médicos 3D
MedSAM2: Segment Anything in 3D Medical Images and Videos
April 4, 2025
Autores: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI
Resumen
La segmentación de imágenes y videos médicos es una tarea crucial para la medicina de precisión, que ha experimentado un progreso considerable en el desarrollo de modelos específicos para tareas o modalidades, así como modelos generalistas para imágenes 2D. Sin embargo, existen estudios limitados sobre la creación de modelos de propósito general para imágenes y videos 3D con estudios de usuarios exhaustivos. Aquí presentamos MedSAM2, un modelo fundacional de segmentación adaptable para la segmentación de imágenes y videos 3D. Este modelo se desarrolló mediante el ajuste fino del Segment Anything Model 2 en un amplio conjunto de datos médicos que incluye más de 455,000 pares de imágenes-máscaras 3D y 76,000 fotogramas, superando a modelos anteriores en una amplia gama de órganos, lesiones y modalidades de imagen. Además, implementamos una canalización con intervención humana para facilitar la creación de conjuntos de datos a gran escala, lo que resultó, hasta donde sabemos, en el estudio de usuarios más extenso hasta la fecha, involucrando la anotación de 5,000 lesiones en tomografías computarizadas (TC), 3,984 lesiones hepáticas en resonancias magnéticas (RM) y 251,550 fotogramas de videos de ecocardiogramas, demostrando que MedSAM2 puede reducir los costos manuales en más del 85%. MedSAM2 también se integra en plataformas ampliamente utilizadas con interfaces amigables para su implementación local y en la nube, convirtiéndolo en una herramienta práctica para apoyar una segmentación eficiente, escalable y de alta calidad tanto en entornos de investigación como de atención médica.
English
Medical image and video segmentation is a critical task for precision
medicine, which has witnessed considerable progress in developing task or
modality-specific and generalist models for 2D images. However, there have been
limited studies on building general-purpose models for 3D images and videos
with comprehensive user studies. Here, we present MedSAM2, a promptable
segmentation foundation model for 3D image and video segmentation. The model is
developed by fine-tuning the Segment Anything Model 2 on a large medical
dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming
previous models across a wide range of organs, lesions, and imaging modalities.
Furthermore, we implement a human-in-the-loop pipeline to facilitate the
creation of large-scale datasets resulting in, to the best of our knowledge,
the most extensive user study to date, involving the annotation of 5,000 CT
lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames,
demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is
also integrated into widely used platforms with user-friendly interfaces for
local and cloud deployment, making it a practical tool for supporting
efficient, scalable, and high-quality segmentation in both research and
healthcare environments.Summary
AI-Generated Summary