ChatPaper.aiChatPaper

UKBOB: Mil Millones de Máscaras Etiquetadas de Resonancia Magnética para Segmentación Generalizable de Imágenes Médicas 3D

UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

April 9, 2025
Autores: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI

Resumen

En el campo de las imágenes médicas, el principal desafío es recopilar datos etiquetados a gran escala debido a preocupaciones de privacidad, logística y los altos costos de etiquetado. En este trabajo, presentamos UK Biobank Organs and Bones (UKBOB), el conjunto de datos etiquetados más grande de órganos corporales, que comprende 51,761 muestras de resonancia magnética (MRI) en 3D (equivalentes a 17.9 millones de imágenes 2D) y más de 1.37 mil millones de máscaras de segmentación 2D de 72 órganos, todo basado en el conjunto de datos de MRI del UK Biobank. Utilizamos etiquetado automático, introducimos una canalización automatizada de limpieza de etiquetas con filtros específicos para órganos y anotamos manualmente un subconjunto de 300 MRI con 11 clases abdominales para validar la calidad (denominado UKBOB-manual). Este enfoque permite escalar la recopilación de datos manteniendo la confianza en las etiquetas. Además, confirmamos la validez de las etiquetas demostrando la generalización zero-shot de modelos entrenados en el UKBOB filtrado a otros conjuntos de datos etiquetados pequeños de dominios similares (por ejemplo, MRI abdominal). Para mitigar aún más el efecto de las etiquetas ruidosas, proponemos un método novedoso llamado Entropy Test-time Adaptation (ETTA) para refinar la salida de segmentación. Utilizamos UKBOB para entrenar un modelo base, Swin-BOB, para la segmentación de imágenes médicas 3D basado en la arquitectura Swin-UNetr, logrando resultados de vanguardia en varios benchmarks de imágenes médicas 3D, incluido el desafío de tumores cerebrales en MRI BRATS (con una mejora del 0.4%) y el benchmark de tomografías computarizadas (CT) abdominales BTCV (con una mejora del 1.3%). Los modelos preentrenados y el código están disponibles en https://emmanuelleb985.github.io/ukbob, y las etiquetas filtradas se pondrán a disposición junto con el UK Biobank.
English
In medical imaging, the primary challenge is collecting large-scale labeled data due to privacy concerns, logistics, and high labeling costs. In this work, we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D images) and more than 1.37 billion 2D segmentation masks of 72 organs, all based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce an automated label cleaning pipeline with organ-specific filters, and manually annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality (referred to as UKBOB-manual). This approach allows for scaling up the dataset collection while maintaining confidence in the labels. We further confirm the validity of the labels by demonstrating zero-shot generalization of trained models on the filtered UKBOB to other small labeled datasets from similar domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels, we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine the segmentation output. We use UKBOB to train a foundation model, Swin-BOB, for 3D medical image segmentation based on the Swin-UNetr architecture, achieving state-of-the-art results in several benchmarks in 3D medical imaging, including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained models and the code are available at https://emmanuelleb985.github.io/ukbob , and the filtered labels will be made available with the UK Biobank.

Summary

AI-Generated Summary

PDF72April 14, 2025