UKBOB: 일반화 가능한 3D 의료 영상 분할을 위한 10억 개의 MRI 라벨 마스크
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
April 9, 2025
저자: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI
초록
의료 영상 분야에서 주요 과제는 개인정보 보호 문제, 물류적 어려움, 그리고 높은 라벨링 비용으로 인해 대규모 라벨 데이터를 수집하는 데 있습니다. 본 연구에서는 UK 바이오뱅크 MRI 데이터셋을 기반으로 한 가장 큰 규모의 신체 장기 라벨 데이터셋인 UK Biobank Organs and Bones(UKBOB)를 소개합니다. 이 데이터셋은 51,761개의 MRI 3D 샘플(17.9백만 개의 2D 이미지에 해당)과 72개 장기에 대한 13.7억 개 이상의 2D 세그멘테이션 마스크를 포함합니다. 우리는 자동 라벨링을 활용하고, 장기별 필터를 도입한 자동 라벨 정제 파이프라인을 소개하며, 11개의 복부 클래스에 대해 300개의 MRI를 수동으로 주석 처리하여 데이터셋의 품질을 검증했습니다(이를 UKBOB-manual이라고 함). 이 접근법은 데이터셋 수집을 확장하면서도 라벨의 신뢰성을 유지할 수 있게 합니다. 또한, 필터링된 UKBOB로 훈련된 모델이 유사한 도메인의 다른 소규모 라벨 데이터셋(예: 복부 MRI)에서 제로샷 일반화를 보임으로써 라벨의 유효성을 추가로 확인했습니다. 노이즈가 있는 라벨의 영향을 더욱 완화하기 위해, 우리는 세그멘테이션 출력을 개선하기 위한 새로운 방법인 엔트로피 테스트 시간 적응(Entropy Test-time Adaptation, ETTA)을 제안합니다. 우리는 UKBOB를 사용하여 Swin-UNetr 아키텍처를 기반으로 한 3D 의료 영상 세그멘테이션을 위한 기초 모델인 Swin-BOB를 훈련시켰으며, BRATS 뇌 MRI 종양 챌린지(0.4% 개선) 및 BTCV 복부 CT 스캔 벤치마크(1.3% 개선)를 포함한 여러 3D 의료 영상 벤치마크에서 최첨단 결과를 달성했습니다. 사전 훈련된 모델과 코드는 https://emmanuelleb985.github.io/ukbob에서 확인할 수 있으며, 필터링된 라벨은 UK 바이오뱅크와 함께 공개될 예정입니다.
English
In medical imaging, the primary challenge is collecting large-scale labeled
data due to privacy concerns, logistics, and high labeling costs. In this work,
we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset
of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D
images) and more than 1.37 billion 2D segmentation masks of 72 organs, all
based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce
an automated label cleaning pipeline with organ-specific filters, and manually
annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality
(referred to as UKBOB-manual). This approach allows for scaling up the dataset
collection while maintaining confidence in the labels. We further confirm the
validity of the labels by demonstrating zero-shot generalization of trained
models on the filtered UKBOB to other small labeled datasets from similar
domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels,
we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine
the segmentation output. We use UKBOB to train a foundation model, Swin-BOB,
for 3D medical image segmentation based on the Swin-UNetr architecture,
achieving state-of-the-art results in several benchmarks in 3D medical imaging,
including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the
BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained
models and the code are available at https://emmanuelleb985.github.io/ukbob ,
and the filtered labels will be made available with the UK Biobank.Summary
AI-Generated Summary