ChatPaper.aiChatPaper

UKBOB: Eine Milliarde MRI-beschriftete Masken für generalisierbare 3D-Medizinbildsegmentierung

UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

April 9, 2025
Autoren: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI

Zusammenfassung

In der medizinischen Bildgebung besteht die größte Herausforderung darin, groß angelegte, annotierte Datensätze zu sammeln, was auf Datenschutzbedenken, logistische Schwierigkeiten und hohe Labeling-Kosten zurückzuführen ist. In dieser Arbeit präsentieren wir UK Biobank Organs and Bones (UKBOB), den größten annotierten Datensatz von Körperorganen, der 51.761 3D-MRT-Proben (entsprechend 17,9 Millionen 2D-Bildern) und mehr als 1,37 Milliarden 2D-Segmentierungsmasken von 72 Organen umfasst, die alle auf dem UK Biobank MRT-Datensatz basieren. Wir nutzen automatisches Labeling, führen eine automatisierte Label-Bereinigungspipeline mit organspezifischen Filtern ein und annotieren manuell eine Teilmenge von 300 MRTs mit 11 abdominalen Klassen, um die Qualität zu validieren (bezeichnet als UKBOB-manual). Dieser Ansatz ermöglicht es, die Datensatzsammlung zu skalieren, während das Vertrauen in die Labels erhalten bleibt. Wir bestätigen die Gültigkeit der Labels weiterhin, indem wir die Null-Shot-Generalisierung von trainierten Modellen auf dem gefilterten UKBOB auf andere kleine annotierte Datensätze aus ähnlichen Domänen (z. B. abdominale MRT) demonstrieren. Um den Effekt von verrauschten Labels weiter zu mildern, schlagen wir eine neue Methode namens Entropy Test-time Adaptation (ETTA) vor, um die Segmentierungsausgabe zu verfeinern. Wir verwenden UKBOB, um ein Foundation-Modell, Swin-BOB, für die 3D-Segmentierung medizinischer Bilder basierend auf der Swin-UNetr-Architektur zu trainieren, und erzielen state-of-the-art Ergebnisse in mehreren Benchmarks der 3D-medizinischen Bildgebung, einschließlich der BRATS-Hirn-MRT-Tumor-Herausforderung (mit einer Verbesserung von 0,4 %) und dem BTCV-abdominalen CT-Scan-Benchmark (mit einer Verbesserung von 1,3 %). Die vortrainierten Modelle und der Code sind unter https://emmanuelleb985.github.io/ukbob verfügbar, und die gefilterten Labels werden mit der UK Biobank veröffentlicht.
English
In medical imaging, the primary challenge is collecting large-scale labeled data due to privacy concerns, logistics, and high labeling costs. In this work, we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D images) and more than 1.37 billion 2D segmentation masks of 72 organs, all based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce an automated label cleaning pipeline with organ-specific filters, and manually annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality (referred to as UKBOB-manual). This approach allows for scaling up the dataset collection while maintaining confidence in the labels. We further confirm the validity of the labels by demonstrating zero-shot generalization of trained models on the filtered UKBOB to other small labeled datasets from similar domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels, we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine the segmentation output. We use UKBOB to train a foundation model, Swin-BOB, for 3D medical image segmentation based on the Swin-UNetr architecture, achieving state-of-the-art results in several benchmarks in 3D medical imaging, including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained models and the code are available at https://emmanuelleb985.github.io/ukbob , and the filtered labels will be made available with the UK Biobank.

Summary

AI-Generated Summary

PDF72April 14, 2025