ChatPaper.aiChatPaper

UKBOB: Eén Miljard MRI-gelabelde Maskers voor Generaliseerbare 3D Medische Beeldsegmentatie

UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

April 9, 2025
Auteurs: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI

Samenvatting

In de medische beeldvorming is de grootste uitdaging het verzamelen van grootschalige gelabelde gegevens vanwege privacyzorgen, logistieke problemen en hoge labelkosten. In dit werk presenteren we de UK Biobank Organs and Bones (UKBOB), de grootste gelabelde dataset van lichaamsorganen, bestaande uit 51.761 MRI 3D-monsters (gelijk aan 17,9 miljoen 2D-beelden) en meer dan 1,37 miljard 2D-segmentatiemaskers van 72 organen, allemaal gebaseerd op de UK Biobank MRI-dataset. We maken gebruik van automatisch labelen, introduceren een geautomatiseerde labelreinigingspijplijn met orgaanspecifieke filters, en annoteren handmatig een subset van 300 MRI's met 11 abdominale klassen om de kwaliteit te valideren (aangeduid als UKBOB-manual). Deze aanpak maakt het mogelijk om de datasetverzameling op te schalen terwijl het vertrouwen in de labels behouden blijft. We bevestigen verder de geldigheid van de labels door zero-shot generalisatie van getrainde modellen op de gefilterde UKBOB naar andere kleine gelabelde datasets uit vergelijkbare domeinen (bijvoorbeeld abdominale MRI) aan te tonen. Om het effect van ruis in de labels verder te verminderen, stellen we een nieuwe methode voor genaamd Entropy Test-time Adaptation (ETTA) om de segmentatie-uitvoer te verfijnen. We gebruiken UKBOB om een foundation model, Swin-BOB, te trainen voor 3D-medische beeldsegmentatie op basis van de Swin-UNetr-architectuur, waarbij state-of-the-art resultaten worden behaald in verschillende benchmarks in 3D-medische beeldvorming, waaronder de BRATS hersen-MRI-tumoruitdaging (met een verbetering van 0,4%) en de BTCV abdominale CT-scan benchmark (met een verbetering van 1,3%). De vooraf getrainde modellen en de code zijn beschikbaar op https://emmanuelleb985.github.io/ukbob, en de gefilterde labels zullen beschikbaar worden gesteld met de UK Biobank.
English
In medical imaging, the primary challenge is collecting large-scale labeled data due to privacy concerns, logistics, and high labeling costs. In this work, we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D images) and more than 1.37 billion 2D segmentation masks of 72 organs, all based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce an automated label cleaning pipeline with organ-specific filters, and manually annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality (referred to as UKBOB-manual). This approach allows for scaling up the dataset collection while maintaining confidence in the labels. We further confirm the validity of the labels by demonstrating zero-shot generalization of trained models on the filtered UKBOB to other small labeled datasets from similar domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels, we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine the segmentation output. We use UKBOB to train a foundation model, Swin-BOB, for 3D medical image segmentation based on the Swin-UNetr architecture, achieving state-of-the-art results in several benchmarks in 3D medical imaging, including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained models and the code are available at https://emmanuelleb985.github.io/ukbob , and the filtered labels will be made available with the UK Biobank.

Summary

AI-Generated Summary

PDF72April 14, 2025