Segmentation interactive d'images médicales : un ensemble de données de référence et une ligne de base
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
November 19, 2024
Auteurs: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
cs.AI
Résumé
La segmentation interactive d'images médicales (IMIS) a longtemps été limitée par la disponibilité limitée de jeux de données larges, diversifiés et densément annotés, ce qui entrave la généralisation des modèles et l'évaluation cohérente entre différents modèles. Dans cet article, nous présentons l'ensemble de données de référence IMed-361M, une avancée significative dans la recherche générale sur l'IMIS. Tout d'abord, nous collectons et normalisons plus de 6,4 millions d'images médicales et leurs masques de vérité terrain correspondants à partir de plusieurs sources de données. Ensuite, en exploitant les fortes capacités de reconnaissance d'objets d'un modèle visionnel fondamental, nous avons automatiquement généré des masques interactifs denses pour chaque image et assuré leur qualité grâce à un contrôle qualité rigoureux et une gestion de la granularité. Contrairement aux ensembles de données précédents, qui sont limités par des modalités spécifiques ou des annotations clairsemées, IMed-361M couvre 14 modalités et 204 cibles de segmentation, totalisant 361 millions de masques - soit une moyenne de 56 masques par image. Enfin, nous avons développé un réseau de base IMIS sur cet ensemble de données qui prend en charge la génération de masques de haute qualité grâce à des entrées interactives, comprenant des clics, des boîtes englobantes, des invites textuelles et leurs combinaisons. Nous évaluons ses performances sur des tâches de segmentation d'images médicales sous plusieurs perspectives, démontrant une précision et une évolutivité supérieures par rapport aux modèles de segmentation interactive existants. Pour faciliter la recherche sur les modèles fondamentaux en vision par ordinateur médicale, nous publions l'IMed-361M et le modèle sur https://github.com/uni-medical/IMIS-Bench.
English
Interactive Medical Image Segmentation (IMIS) has long been constrained by
the limited availability of large-scale, diverse, and densely annotated
datasets, which hinders model generalization and consistent evaluation across
different models. In this paper, we introduce the IMed-361M benchmark dataset,
a significant advancement in general IMIS research. First, we collect and
standardize over 6.4 million medical images and their corresponding ground
truth masks from multiple data sources. Then, leveraging the strong object
recognition capabilities of a vision foundational model, we automatically
generated dense interactive masks for each image and ensured their quality
through rigorous quality control and granularity management. Unlike previous
datasets, which are limited by specific modalities or sparse annotations,
IMed-361M spans 14 modalities and 204 segmentation targets, totaling 361
million masks-an average of 56 masks per image. Finally, we developed an IMIS
baseline network on this dataset that supports high-quality mask generation
through interactive inputs, including clicks, bounding boxes, text prompts, and
their combinations. We evaluate its performance on medical image segmentation
tasks from multiple perspectives, demonstrating superior accuracy and
scalability compared to existing interactive segmentation models. To facilitate
research on foundational models in medical computer vision, we release the
IMed-361M and model at https://github.com/uni-medical/IMIS-Bench.Summary
AI-Generated Summary