MedSAM2 : Segmentation universelle dans les images et vidéos médicales 3D
MedSAM2: Segment Anything in 3D Medical Images and Videos
April 4, 2025
Auteurs: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI
Résumé
La segmentation d'images et de vidéos médicales est une tâche cruciale pour la médecine de précision, qui a connu des progrès considérables dans le développement de modèles spécifiques à une tâche ou à une modalité, ainsi que de modèles généralistes pour les images 2D. Cependant, les études sur la création de modèles polyvalents pour les images 3D et les vidéos, accompagnées d'études utilisateurs approfondies, restent limitées. Nous présentons ici MedSAM2, un modèle de segmentation fondationnel promptable pour la segmentation d'images 3D et de vidéos. Ce modèle a été développé en affinant le Segment Anything Model 2 sur un vaste ensemble de données médicales comprenant plus de 455 000 paires d'images-masques 3D et 76 000 images, surpassant les modèles précédents sur une large gamme d'organes, de lésions et de modalités d'imagerie. De plus, nous avons mis en place un pipeline humain-dans-la-boucle pour faciliter la création de jeux de données à grande échelle, aboutissant, à notre connaissance, à l'étude utilisateur la plus extensive à ce jour, impliquant l'annotation de 5 000 lésions en tomodensitométrie, 3 984 lésions hépatiques en IRM et 251 550 images vidéo d'échocardiogramme, démontrant que MedSAM2 peut réduire les coûts manuels de plus de 85 %. MedSAM2 est également intégré dans des plateformes largement utilisées, dotées d'interfaces conviviales pour un déploiement local et cloud, en faisant un outil pratique pour soutenir une segmentation efficace, évolutive et de haute qualité dans les environnements de recherche et de soins de santé.
English
Medical image and video segmentation is a critical task for precision
medicine, which has witnessed considerable progress in developing task or
modality-specific and generalist models for 2D images. However, there have been
limited studies on building general-purpose models for 3D images and videos
with comprehensive user studies. Here, we present MedSAM2, a promptable
segmentation foundation model for 3D image and video segmentation. The model is
developed by fine-tuning the Segment Anything Model 2 on a large medical
dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming
previous models across a wide range of organs, lesions, and imaging modalities.
Furthermore, we implement a human-in-the-loop pipeline to facilitate the
creation of large-scale datasets resulting in, to the best of our knowledge,
the most extensive user study to date, involving the annotation of 5,000 CT
lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames,
demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is
also integrated into widely used platforms with user-friendly interfaces for
local and cloud deployment, making it a practical tool for supporting
efficient, scalable, and high-quality segmentation in both research and
healthcare environments.Summary
AI-Generated Summary