MedSAM2: Segmenteren van Alles in 3D Medische Beelden en Video's

Samenvatting

Medische beeld- en videosegmentatie is een cruciale taak voor precisiegeneeskunde, die aanzienlijke vooruitgang heeft geboekt in de ontwikkeling van taak- of modaliteitsspecifieke en generalistische modellen voor 2D-beelden. Er zijn echter beperkte studies uitgevoerd naar het bouwen van algemene modellen voor 3D-beelden en video's met uitgebreide gebruikersstudies. Hier presenteren we MedSAM2, een promptbaar segmentatiefundamentmodel voor 3D-beeld- en videosegmentatie. Het model is ontwikkeld door het Segment Anything Model 2 te fine-tunen op een grote medische dataset met meer dan 455.000 3D-beeld-maskerparen en 76.000 frames, waardoor het eerdere modellen overtreft op een breed scala aan organen, laesies en beeldvormingsmodaliteiten. Bovendien implementeren we een human-in-the-loop-pipeline om het creëren van grootschalige datasets te vergemakkelijken, wat resulteert in, voor zover wij weten, de meest uitgebreide gebruikersstudie tot nu toe, met de annotatie van 5.000 CT-laesies, 3.984 lever-MRI-laesies en 251.550 echocardiogramvideoframes, wat aantoont dat MedSAM2 de handmatige kosten met meer dan 85% kan verminderen. MedSAM2 is ook geïntegreerd in veelgebruikte platforms met gebruiksvriendelijke interfaces voor lokale en cloud-implementatie, waardoor het een praktisch hulpmiddel is voor het ondersteunen van efficiënte, schaalbare en hoogwaardige segmentatie in zowel onderzoeks- als gezondheidszorgomgevingen.

English

Medical image and video segmentation is a critical task for precision medicine, which has witnessed considerable progress in developing task or modality-specific and generalist models for 2D images. However, there have been limited studies on building general-purpose models for 3D images and videos with comprehensive user studies. Here, we present MedSAM2, a promptable segmentation foundation model for 3D image and video segmentation. The model is developed by fine-tuning the Segment Anything Model 2 on a large medical dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming previous models across a wide range of organs, lesions, and imaging modalities. Furthermore, we implement a human-in-the-loop pipeline to facilitate the creation of large-scale datasets resulting in, to the best of our knowledge, the most extensive user study to date, involving the annotation of 5,000 CT lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames, demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is also integrated into widely used platforms with user-friendly interfaces for local and cloud deployment, making it a practical tool for supporting efficient, scalable, and high-quality segmentation in both research and healthcare environments.

MedSAM2: Segmenteren van Alles in 3D Medische Beelden en Video's

MedSAM2: Segment Anything in 3D Medical Images and Videos

Samenvatting

Support