MedSAM2: Сегментация любых объектов в 3D медицинских изображениях и видео
MedSAM2: Segment Anything in 3D Medical Images and Videos
April 4, 2025
Авторы: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI
Аннотация
Сегментация медицинских изображений и видео является ключевой задачей для точной медицины, в которой наблюдается значительный прогресс в разработке специализированных и универсальных моделей для 2D-изображений. Однако исследований, посвященных созданию универсальных моделей для 3D-изображений и видео с проведением масштабных пользовательских исследований, до сих пор было ограниченное количество. В данной работе мы представляем MedSAM2 — модель-основу для сегментации 3D-изображений и видео, поддерживающую работу с подсказками. Модель разработана путем дообучения Segment Anything Model 2 на большом медицинском наборе данных, включающем более 455 000 пар 3D-изображений и масок, а также 76 000 кадров, и превосходит предыдущие модели в сегментации широкого спектра органов, поражений и методов визуализации. Кроме того, мы реализовали процесс с участием человека для облегчения создания крупномасштабных наборов данных, что привело, насколько нам известно, к самому обширному на сегодняшний день пользовательскому исследованию, включающему аннотирование 5 000 КТ-поражений, 3 984 МРТ-поражений печени и 251 550 кадров эхокардиограмм, демонстрируя, что MedSAM2 может сократить ручные затраты более чем на 85%. MedSAM2 также интегрирована в широко используемые платформы с удобными интерфейсами для локального и облачного развертывания, что делает её практичным инструментом для поддержки эффективной, масштабируемой и высококачественной сегментации как в исследовательских, так и в клинических условиях.
English
Medical image and video segmentation is a critical task for precision
medicine, which has witnessed considerable progress in developing task or
modality-specific and generalist models for 2D images. However, there have been
limited studies on building general-purpose models for 3D images and videos
with comprehensive user studies. Here, we present MedSAM2, a promptable
segmentation foundation model for 3D image and video segmentation. The model is
developed by fine-tuning the Segment Anything Model 2 on a large medical
dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming
previous models across a wide range of organs, lesions, and imaging modalities.
Furthermore, we implement a human-in-the-loop pipeline to facilitate the
creation of large-scale datasets resulting in, to the best of our knowledge,
the most extensive user study to date, involving the annotation of 5,000 CT
lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames,
demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is
also integrated into widely used platforms with user-friendly interfaces for
local and cloud deployment, making it a practical tool for supporting
efficient, scalable, and high-quality segmentation in both research and
healthcare environments.Summary
AI-Generated Summary