ChatPaper.aiChatPaper

MedSAM2: Segmentação de Qualquer Coisa em Imagens e Vídeos Médicos 3D

MedSAM2: Segment Anything in 3D Medical Images and Videos

April 4, 2025
Autores: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI

Resumo

A segmentação de imagens e vídeos médicos é uma tarefa crucial para a medicina de precisão, que tem testemunhado progressos consideráveis no desenvolvimento de modelos específicos para tarefas ou modalidades, bem como modelos generalistas para imagens 2D. No entanto, existem estudos limitados sobre a construção de modelos de propósito geral para imagens 3D e vídeos, com estudos de usuários abrangentes. Aqui, apresentamos o MedSAM2, um modelo de segmentação fundamentado e promptável para segmentação de imagens 3D e vídeos. O modelo foi desenvolvido por meio do ajuste fino do Segment Anything Model 2 em um grande conjunto de dados médicos, contendo mais de 455.000 pares de imagem-máscara 3D e 76.000 frames, superando modelos anteriores em uma ampla gama de órgãos, lesões e modalidades de imagem. Além disso, implementamos um pipeline de "humano no loop" para facilitar a criação de conjuntos de dados em larga escala, resultando, até onde sabemos, no estudo de usuário mais extenso até o momento, envolvendo a anotação de 5.000 lesões em tomografias computadorizadas (CT), 3.984 lesões hepáticas em ressonância magnética (MRI) e 251.550 frames de vídeo de ecocardiogramas, demonstrando que o MedSAM2 pode reduzir os custos manuais em mais de 85%. O MedSAM2 também foi integrado a plataformas amplamente utilizadas, com interfaces amigáveis para implantação local e em nuvem, tornando-o uma ferramenta prática para apoiar a segmentação eficiente, escalável e de alta qualidade tanto em ambientes de pesquisa quanto de saúde.
English
Medical image and video segmentation is a critical task for precision medicine, which has witnessed considerable progress in developing task or modality-specific and generalist models for 2D images. However, there have been limited studies on building general-purpose models for 3D images and videos with comprehensive user studies. Here, we present MedSAM2, a promptable segmentation foundation model for 3D image and video segmentation. The model is developed by fine-tuning the Segment Anything Model 2 on a large medical dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming previous models across a wide range of organs, lesions, and imaging modalities. Furthermore, we implement a human-in-the-loop pipeline to facilitate the creation of large-scale datasets resulting in, to the best of our knowledge, the most extensive user study to date, involving the annotation of 5,000 CT lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames, demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is also integrated into widely used platforms with user-friendly interfaces for local and cloud deployment, making it a practical tool for supporting efficient, scalable, and high-quality segmentation in both research and healthcare environments.

Summary

AI-Generated Summary

PDF82April 7, 2025