UKBOB: Один миллиард размеченных масок МРТ для обобщаемой 3D-сегментации медицинских изображений
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
April 9, 2025
Авторы: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI
Аннотация
В области медицинской визуализации основной проблемой является сбор крупномасштабных размеченных данных из-за вопросов конфиденциальности, логистических сложностей и высоких затрат на разметку. В данной работе мы представляем UK Biobank Organs and Bones (UKBOB) — крупнейший размеченный набор данных органов тела, включающий 51 761 3D-образцов МРТ (что эквивалентно 17,9 миллионам 2D-изображений) и более 1,37 миллиарда 2D-масок сегментации для 72 органов, все они основаны на наборе данных МРТ UK Biobank. Мы используем автоматическую разметку, внедряем автоматизированный конвейер очистки меток с органоспецифичными фильтрами и вручную аннотируем подмножество из 300 МРТ с 11 классами брюшной полости для проверки качества (называемое UKBOB-manual). Такой подход позволяет масштабировать сбор данных, сохраняя уверенность в качестве меток. Мы дополнительно подтверждаем достоверность меток, демонстрируя обобщение обученных моделей на отфильтрованном UKBOB в режиме zero-shot на другие небольшие размеченные наборы данных из схожих областей (например, МРТ брюшной полости). Чтобы дополнительно снизить влияние зашумленных меток, мы предлагаем новый метод под названием Entropy Test-time Adaptation (ETTA) для уточнения выходных данных сегментации. Мы используем UKBOB для обучения базовой модели Swin-BOB для 3D-сегментации медицинских изображений на основе архитектуры Swin-UNetr, достигая передовых результатов в нескольких бенчмарках 3D-медицинской визуализации, включая задачу BRATS по сегментации опухолей мозга на МРТ (с улучшением на 0,4%) и бенчмарк BTCV для КТ брюшной полости (с улучшением на 1,3%). Предобученные модели и код доступны по адресу https://emmanuelleb985.github.io/ukbob, а отфильтрованные метки будут предоставлены вместе с UK Biobank.
English
In medical imaging, the primary challenge is collecting large-scale labeled
data due to privacy concerns, logistics, and high labeling costs. In this work,
we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset
of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D
images) and more than 1.37 billion 2D segmentation masks of 72 organs, all
based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce
an automated label cleaning pipeline with organ-specific filters, and manually
annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality
(referred to as UKBOB-manual). This approach allows for scaling up the dataset
collection while maintaining confidence in the labels. We further confirm the
validity of the labels by demonstrating zero-shot generalization of trained
models on the filtered UKBOB to other small labeled datasets from similar
domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels,
we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine
the segmentation output. We use UKBOB to train a foundation model, Swin-BOB,
for 3D medical image segmentation based on the Swin-UNetr architecture,
achieving state-of-the-art results in several benchmarks in 3D medical imaging,
including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the
BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained
models and the code are available at https://emmanuelleb985.github.io/ukbob ,
and the filtered labels will be made available with the UK Biobank.Summary
AI-Generated Summary