UKBOB : Un milliard de masques annotés par IRM pour la segmentation généralisable d'images médicales 3D
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
April 9, 2025
Auteurs: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI
Résumé
En imagerie médicale, le principal défi consiste à collecter des données annotées à grande échelle en raison des préoccupations liées à la confidentialité, des contraintes logistiques et des coûts élevés d'annotation. Dans ce travail, nous présentons UK Biobank Organs and Bones (UKBOB), le plus grand ensemble de données annotées d'organes corporels, comprenant 51 761 échantillons IRM 3D (équivalant à 17,9 millions d'images 2D) et plus de 1,37 milliard de masques de segmentation 2D pour 72 organes, tous basés sur le jeu de données IRM de la UK Biobank. Nous utilisons un étiquetage automatique, introduisons un pipeline automatisé de nettoyage des étiquettes avec des filtres spécifiques aux organes, et annotons manuellement un sous-ensemble de 300 IRM avec 11 classes abdominales pour valider la qualité (appelé UKBOB-manuel). Cette approche permet d'augmenter la collecte de données tout en maintenant la confiance dans les étiquettes. Nous confirmons en outre la validité des étiquettes en démontrant la généralisation en zero-shot des modèles entraînés sur UKBOB filtré à d'autres petits ensembles de données annotées provenant de domaines similaires (par exemple, l'IRM abdominale). Pour atténuer davantage l'effet des étiquettes bruyantes, nous proposons une nouvelle méthode appelée Entropy Test-time Adaptation (ETTA) pour affiner la sortie de segmentation. Nous utilisons UKBOB pour entraîner un modèle de base, Swin-BOB, pour la segmentation d'images médicales 3D basé sur l'architecture Swin-UNetr, obtenant des résultats de pointe dans plusieurs benchmarks en imagerie médicale 3D, notamment le défi BRATS sur les tumeurs cérébrales en IRM (avec une amélioration de 0,4 %) et le benchmark BTCV sur les scanners abdominaux en tomodensitométrie (avec une amélioration de 1,3 %). Les modèles pré-entraînés et le code sont disponibles à l'adresse https://emmanuelleb985.github.io/ukbob, et les étiquettes filtrées seront mises à disposition avec la UK Biobank.
English
In medical imaging, the primary challenge is collecting large-scale labeled
data due to privacy concerns, logistics, and high labeling costs. In this work,
we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset
of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D
images) and more than 1.37 billion 2D segmentation masks of 72 organs, all
based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce
an automated label cleaning pipeline with organ-specific filters, and manually
annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality
(referred to as UKBOB-manual). This approach allows for scaling up the dataset
collection while maintaining confidence in the labels. We further confirm the
validity of the labels by demonstrating zero-shot generalization of trained
models on the filtered UKBOB to other small labeled datasets from similar
domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels,
we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine
the segmentation output. We use UKBOB to train a foundation model, Swin-BOB,
for 3D medical image segmentation based on the Swin-UNetr architecture,
achieving state-of-the-art results in several benchmarks in 3D medical imaging,
including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the
BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained
models and the code are available at https://emmanuelleb985.github.io/ukbob ,
and the filtered labels will be made available with the UK Biobank.Summary
AI-Generated Summary