ChatPaper.aiChatPaper

Pillar-0: 放射線学基盤モデルの新たなフロンティア

Pillar-0: A New Frontier for Radiology Foundation Models

November 21, 2025
著者: Kumar Krishna Agrawal, Longchao Liu, Long Lian, Michael Nercessian, Natalia Harguindeguy, Yufu Wu, Peter Mikhael, Gigin Lin, Lecia V. Sequist, Florian Fintelmann, Trevor Darrell, Yutong Bai, Maggie Chung, Adam Yala
cs.AI

要旨

放射線学は現代医療において不可欠な役割を果たしているが、画像検査数の増加は人材の成長を遥かに上回っている。基盤モデルは放射線学タスク全体を支援する道筋を示すが、既存の医療モデルには限界がある:体積CTやMRIを低解像度の2Dスライスとして処理し、重要な階調コントラスト情報を破棄し、実際の臨床現場を反映した評価枠組みを欠いている。我々は、大規模学術センターから得た42,990例の腹部骨盤CT、86,411例の胸部CT、14,348例の頭部CT、11,543例の乳房MRIで事前学習された放射線学基盤モデルPillar-0と、LLMを用いて366種類の放射線学的所見に対する構造化ラベルをほぼ完璧な精度で抽出するスケーラブルな枠組みRATEを提案する。14,230例の腹部骨盤CT、10,646例の胸部CT、4,906例の頭部CT、1,585例の乳房MRIからなる内部テストセットにおいて、Pillar-0は平均AUROCが86.4、88.0、90.1、82.9を達成し、新たな性能基準を確立した。これはMedGemma(Google)、MedImageInsight(Microsoft)、Lingshu(Alibaba)、Merlin(Stanford)を7.8-15.8 AUROCポイント上回り、全タスクの87.2%(319/366)で最高の順位を得た。Pillar-0は、Stanford Abdominal CTデータセットを用いた外部検証(Merlin: 82.2 vs 80.6 AUROC)においても、全てのベースラインを同様に凌駕した。Pillar-0は事前学習範囲を超えたタスクにも適用可能であり、長期的な肺癌リスク予測では、NLSTにおいて最新の手法Sybilを3.0 C-indexポイント上回り、MGHで5.9、CGMHで1.9の改善を示して一般性を確認した。脳出血検出では、次に効率的なベースラインの1/20のデータ量のみを使用し、>95のAUROCを達成した。Pillar-0とRATEは、計算資源、データ、評価制約により従来実現が困難だった応用を可能にし、高性能な放射線学システム構築のためのオープンで臨床的に厳密な基盤を提供する。
English
Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.
PDF222February 7, 2026