UKBOB:汎用可能な3D医用画像セグメンテーションのための10億のMRIラベル付きマスク
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
April 9, 2025
著者: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI
要旨
医療画像分野における主な課題は、プライバシー問題、ロジスティクス、高額なラベル付けコストにより、大規模なラベル付きデータを収集することです。本研究では、UK Biobank MRIデータセットに基づく、最大規模の身体臓器ラベル付きデータセットであるUK Biobank Organs and Bones(UKBOB)を紹介します。このデータセットは、51,761件のMRI 3Dサンプル(17.9百万枚の2D画像に相当)と72の臓器に対する13.7億以上の2Dセグメンテーションマスクを含んでいます。自動ラベル付けを活用し、臓器固有のフィルターを用いた自動ラベルクリーニングパイプラインを導入し、11の腹部クラスを含む300件のMRIを手動でアノテーションして品質を検証しました(これをUKBOB-manualと呼びます)。このアプローチにより、ラベルの信頼性を維持しながらデータセット収集を拡大することが可能になりました。さらに、フィルタリングされたUKBOBで訓練されたモデルのゼロショット一般化能力を、類似ドメインの他の小規模ラベル付きデータセット(例:腹部MRI)で実証することで、ラベルの有効性を確認しました。ノイジーなラベルの影響をさらに軽減するため、セグメンテーション出力を洗練する新しい手法であるEntropy Test-time Adaptation(ETTA)を提案しました。UKBOBを使用して、Swin-UNetrアーキテクチャに基づく3D医療画像セグメンテーションのための基盤モデルSwin-BOBを訓練し、BRATS脳MRI腫瘍チャレンジ(0.4%の改善)やBTCV腹部CTスキャンベンチマーク(1.3%の改善)を含む、いくつかの3D医療画像ベンチマークで最先端の結果を達成しました。事前訓練済みモデルとコードはhttps://emmanuelleb985.github.io/ukbobで公開されており、フィルタリングされたラベルはUK Biobankとともに利用可能になります。
English
In medical imaging, the primary challenge is collecting large-scale labeled
data due to privacy concerns, logistics, and high labeling costs. In this work,
we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset
of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D
images) and more than 1.37 billion 2D segmentation masks of 72 organs, all
based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce
an automated label cleaning pipeline with organ-specific filters, and manually
annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality
(referred to as UKBOB-manual). This approach allows for scaling up the dataset
collection while maintaining confidence in the labels. We further confirm the
validity of the labels by demonstrating zero-shot generalization of trained
models on the filtered UKBOB to other small labeled datasets from similar
domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels,
we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine
the segmentation output. We use UKBOB to train a foundation model, Swin-BOB,
for 3D medical image segmentation based on the Swin-UNetr architecture,
achieving state-of-the-art results in several benchmarks in 3D medical imaging,
including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the
BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained
models and the code are available at https://emmanuelleb985.github.io/ukbob ,
and the filtered labels will be made available with the UK Biobank.Summary
AI-Generated Summary