Segmentation interactive d'images médicales : un ensemble de données de référence et une ligne de base

papers.abstract

La segmentation interactive d'images médicales (IMIS) a longtemps été limitée par la disponibilité limitée de jeux de données larges, diversifiés et densément annotés, ce qui entrave la généralisation des modèles et l'évaluation cohérente entre différents modèles. Dans cet article, nous présentons l'ensemble de données de référence IMed-361M, une avancée significative dans la recherche générale sur l'IMIS. Tout d'abord, nous collectons et normalisons plus de 6,4 millions d'images médicales et leurs masques de vérité terrain correspondants à partir de plusieurs sources de données. Ensuite, en exploitant les fortes capacités de reconnaissance d'objets d'un modèle visionnel fondamental, nous avons automatiquement généré des masques interactifs denses pour chaque image et assuré leur qualité grâce à un contrôle qualité rigoureux et une gestion de la granularité. Contrairement aux ensembles de données précédents, qui sont limités par des modalités spécifiques ou des annotations clairsemées, IMed-361M couvre 14 modalités et 204 cibles de segmentation, totalisant 361 millions de masques - soit une moyenne de 56 masques par image. Enfin, nous avons développé un réseau de base IMIS sur cet ensemble de données qui prend en charge la génération de masques de haute qualité grâce à des entrées interactives, comprenant des clics, des boîtes englobantes, des invites textuelles et leurs combinaisons. Nous évaluons ses performances sur des tâches de segmentation d'images médicales sous plusieurs perspectives, démontrant une précision et une évolutivité supérieures par rapport aux modèles de segmentation interactive existants. Pour faciliter la recherche sur les modèles fondamentaux en vision par ordinateur médicale, nous publions l'IMed-361M et le modèle sur https://github.com/uni-medical/IMIS-Bench.

English

Interactive Medical Image Segmentation (IMIS) has long been constrained by the limited availability of large-scale, diverse, and densely annotated datasets, which hinders model generalization and consistent evaluation across different models. In this paper, we introduce the IMed-361M benchmark dataset, a significant advancement in general IMIS research. First, we collect and standardize over 6.4 million medical images and their corresponding ground truth masks from multiple data sources. Then, leveraging the strong object recognition capabilities of a vision foundational model, we automatically generated dense interactive masks for each image and ensured their quality through rigorous quality control and granularity management. Unlike previous datasets, which are limited by specific modalities or sparse annotations, IMed-361M spans 14 modalities and 204 segmentation targets, totaling 361 million masks-an average of 56 masks per image. Finally, we developed an IMIS baseline network on this dataset that supports high-quality mask generation through interactive inputs, including clicks, bounding boxes, text prompts, and their combinations. We evaluate its performance on medical image segmentation tasks from multiple perspectives, demonstrating superior accuracy and scalability compared to existing interactive segmentation models. To facilitate research on foundational models in medical computer vision, we release the IMed-361M and model at https://github.com/uni-medical/IMIS-Bench.

Segmentation interactive d'images médicales : un ensemble de données de référence et une ligne de base

Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

papers.abstract

Support