MedSAM2: Segmenteren van Alles in 3D Medische Beelden en Video's
MedSAM2: Segment Anything in 3D Medical Images and Videos
April 4, 2025
Auteurs: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI
Samenvatting
Medische beeld- en videosegmentatie is een cruciale taak voor precisiegeneeskunde, die aanzienlijke vooruitgang heeft geboekt in de ontwikkeling van taak- of modaliteitsspecifieke en generalistische modellen voor 2D-beelden. Er zijn echter beperkte studies uitgevoerd naar het bouwen van algemene modellen voor 3D-beelden en video's met uitgebreide gebruikersstudies. Hier presenteren we MedSAM2, een promptbaar segmentatiefundamentmodel voor 3D-beeld- en videosegmentatie. Het model is ontwikkeld door het Segment Anything Model 2 te fine-tunen op een grote medische dataset met meer dan 455.000 3D-beeld-maskerparen en 76.000 frames, waardoor het eerdere modellen overtreft op een breed scala aan organen, laesies en beeldvormingsmodaliteiten. Bovendien implementeren we een human-in-the-loop-pipeline om het creëren van grootschalige datasets te vergemakkelijken, wat resulteert in, voor zover wij weten, de meest uitgebreide gebruikersstudie tot nu toe, met de annotatie van 5.000 CT-laesies, 3.984 lever-MRI-laesies en 251.550 echocardiogramvideoframes, wat aantoont dat MedSAM2 de handmatige kosten met meer dan 85% kan verminderen. MedSAM2 is ook geïntegreerd in veelgebruikte platforms met gebruiksvriendelijke interfaces voor lokale en cloud-implementatie, waardoor het een praktisch hulpmiddel is voor het ondersteunen van efficiënte, schaalbare en hoogwaardige segmentatie in zowel onderzoeks- als gezondheidszorgomgevingen.
English
Medical image and video segmentation is a critical task for precision
medicine, which has witnessed considerable progress in developing task or
modality-specific and generalist models for 2D images. However, there have been
limited studies on building general-purpose models for 3D images and videos
with comprehensive user studies. Here, we present MedSAM2, a promptable
segmentation foundation model for 3D image and video segmentation. The model is
developed by fine-tuning the Segment Anything Model 2 on a large medical
dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming
previous models across a wide range of organs, lesions, and imaging modalities.
Furthermore, we implement a human-in-the-loop pipeline to facilitate the
creation of large-scale datasets resulting in, to the best of our knowledge,
the most extensive user study to date, involving the annotation of 5,000 CT
lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames,
demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is
also integrated into widely used platforms with user-friendly interfaces for
local and cloud deployment, making it a practical tool for supporting
efficient, scalable, and high-quality segmentation in both research and
healthcare environments.Summary
AI-Generated Summary