MedSAM2: Segmentierung beliebiger Strukturen in 3D-Medizinbildern und -Videos
MedSAM2: Segment Anything in 3D Medical Images and Videos
April 4, 2025
Autoren: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI
Zusammenfassung
Die Segmentierung von medizinischen Bildern und Videos ist eine entscheidende Aufgabe für die Präzisionsmedizin, die erhebliche Fortschritte bei der Entwicklung von aufgaben- oder modalitätsspezifischen sowie allgemeinen Modellen für 2D-Bilder verzeichnet hat. Es gibt jedoch nur begrenzte Studien zum Aufbau von universellen Modellen für 3D-Bilder und Videos mit umfassenden Benutzerstudien. Hier präsentieren wir MedSAM2, ein promptbasiertes Segmentierungs-Grundmodell für die 3D-Bild- und Videosegmentierung. Das Modell wurde durch Feinabstimmung des Segment Anything Model 2 auf einem umfangreichen medizinischen Datensatz mit über 455.000 3D-Bild-Masken-Paaren und 76.000 Frames entwickelt und übertrifft bisherige Modelle bei einer Vielzahl von Organen, Läsionen und Bildgebungsmodalitäten. Darüber hinaus implementieren wir eine Human-in-the-Loop-Pipeline, um die Erstellung groß angelegter Datensätze zu erleichtern, was nach unserem Wissen die bisher umfangreichste Benutzerstudie zur Folge hat, bei der 5.000 CT-Läsionen, 3.984 Leber-MRT-Läsionen und 251.550 Echokardiogramm-Videoframes annotiert wurden. Dies zeigt, dass MedSAM2 die manuellen Kosten um mehr als 85 % reduzieren kann. MedSAM2 ist auch in weit verbreitete Plattformen mit benutzerfreundlichen Schnittstellen für lokale und Cloud-Bereitstellung integriert, was es zu einem praktischen Werkzeug für die Unterstützung effizienter, skalierbarer und hochwertiger Segmentierung in Forschungs- und Gesundheitsumgebungen macht.
English
Medical image and video segmentation is a critical task for precision
medicine, which has witnessed considerable progress in developing task or
modality-specific and generalist models for 2D images. However, there have been
limited studies on building general-purpose models for 3D images and videos
with comprehensive user studies. Here, we present MedSAM2, a promptable
segmentation foundation model for 3D image and video segmentation. The model is
developed by fine-tuning the Segment Anything Model 2 on a large medical
dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming
previous models across a wide range of organs, lesions, and imaging modalities.
Furthermore, we implement a human-in-the-loop pipeline to facilitate the
creation of large-scale datasets resulting in, to the best of our knowledge,
the most extensive user study to date, involving the annotation of 5,000 CT
lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames,
demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is
also integrated into widely used platforms with user-friendly interfaces for
local and cloud deployment, making it a practical tool for supporting
efficient, scalable, and high-quality segmentation in both research and
healthcare environments.Summary
AI-Generated Summary