UKBOB: Um Bilhão de Máscaras Rotuladas por Ressonância Magnética para Segmentação Generalizável de Imagens Médicas 3D
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
April 9, 2025
Autores: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI
Resumo
Na área de imagens médicas, o principal desafio é a coleta de dados em grande escala com anotações, devido a preocupações com privacidade, logística e altos custos de rotulagem. Neste trabalho, apresentamos o UK Biobank Organs and Bones (UKBOB), o maior conjunto de dados rotulados de órgãos do corpo, composto por 51.761 amostras de ressonância magnética 3D (equivalente a 17,9 milhões de imagens 2D) e mais de 1,37 bilhão de máscaras de segmentação 2D de 72 órgãos, todos baseados no conjunto de dados de ressonância magnética do UK Biobank. Utilizamos rotulagem automática, introduzimos um pipeline automatizado de limpeza de rótulos com filtros específicos para órgãos e anotamos manualmente um subconjunto de 300 ressonâncias magnéticas com 11 classes abdominais para validar a qualidade (denominado UKBOB-manual). Essa abordagem permite escalar a coleta de dados enquanto mantém a confiança nos rótulos. Confirmamos ainda a validade dos rótulos demonstrando a generalização zero-shot de modelos treinados no UKBOB filtrado para outros pequenos conjuntos de dados rotulados de domínios semelhantes (por exemplo, ressonância magnética abdominal). Para mitigar ainda mais o efeito de rótulos ruidosos, propomos um novo método chamado Entropy Test-time Adaptation (ETTA) para refinar a saída da segmentação. Utilizamos o UKBOB para treinar um modelo base, Swin-BOB, para segmentação de imagens médicas 3D com base na arquitetura Swin-UNetr, alcançando resultados de ponta em vários benchmarks de imagens médicas 3D, incluindo o desafio de tumores cerebrais em ressonância magnética BRATS (com uma melhoria de 0,4%) e o benchmark de tomografia computadorizada abdominal BTCV (com uma melhoria de 1,3%). Os modelos pré-treinados e o código estão disponíveis em https://emmanuelleb985.github.io/ukbob, e os rótulos filtrados serão disponibilizados junto com o UK Biobank.
English
In medical imaging, the primary challenge is collecting large-scale labeled
data due to privacy concerns, logistics, and high labeling costs. In this work,
we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset
of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D
images) and more than 1.37 billion 2D segmentation masks of 72 organs, all
based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce
an automated label cleaning pipeline with organ-specific filters, and manually
annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality
(referred to as UKBOB-manual). This approach allows for scaling up the dataset
collection while maintaining confidence in the labels. We further confirm the
validity of the labels by demonstrating zero-shot generalization of trained
models on the filtered UKBOB to other small labeled datasets from similar
domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels,
we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine
the segmentation output. We use UKBOB to train a foundation model, Swin-BOB,
for 3D medical image segmentation based on the Swin-UNetr architecture,
achieving state-of-the-art results in several benchmarks in 3D medical imaging,
including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the
BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained
models and the code are available at https://emmanuelleb985.github.io/ukbob ,
and the filtered labels will be made available with the UK Biobank.Summary
AI-Generated Summary