Pillar-0: Een Nieuwe Grens voor Stichtingsmodellen in de Radiologie
Pillar-0: A New Frontier for Radiology Foundation Models
November 21, 2025
Auteurs: Kumar Krishna Agrawal, Longchao Liu, Long Lian, Michael Nercessian, Natalia Harguindeguy, Yufu Wu, Peter Mikhael, Gigin Lin, Lecia V. Sequist, Florian Fintelmann, Trevor Darrell, Yutong Bai, Maggie Chung, Adam Yala
cs.AI
Samenvatting
Radiologie speelt een integrale rol in de moderne geneeskunde, maar de stijgende beeldvormingsvolumes hebben de groei van de arbeidskracht ver overtroffen. Foundation-modellen bieden een weg naar ondersteuning bij het volledige spectrum van radiologische taken, maar bestaande medische modellen blijven beperkt: ze verwerken volumetrische CT- en MRI-scans als 2D-slices met lage resolutie, verwijderen kritische grijswaardecontrastinformatie en ontberen evaluatieraamwerken die de echte klinische praktijk weerspiegelen. Wij introduceren Pillar-0, een radiologisch foundation-model voorgetraind op 42.990 abdomen-pelvis CT-scans, 86.411 thorax-CT-scans, 14.348 hoofd-CT-scans en 11.543 borst-MRI's van een groot academisch centrum, samen met RATE, een schaalbaar raamwerk dat gestructureerde labels voor 366 radiologische bevindingen extraheert met bijna perfecte nauwkeurigheid met behulp van LLM's. Over interne testsets van 14.230 abdomen-pelvis CT-scans, 10.646 thorax-CT-scans, 4.906 hoofd-CT-scans en 1.585 borst-MRI's vestigt Pillar-0 een nieuwe prestatiegrens, met gemiddelde AUROC's van 86,4, 88,0, 90,1 en 82,9, waarmee het MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) en Merlin (Stanford) met 7,8-15,8 AUROC-punten overtreft en als beste scoort in 87,2% (319/366) van de taken. Pillar-0 overtreft eveneens alle baseline-modellen in een externe validatie op de Stanford Abdominal CT-dataset, inclusief Merlin (82,2 vs 80,6 AUROC). Pillar-0 strekt zich uit tot taken buiten zijn voorafgaande training, zoals langetermijnrisicovoorspelling voor longkanker, waar het de state-of-the-art Sybil met 3,0 C-index punten verbetert op de NLST, en generaliseert met winsten van 5,9 (MGH) en 1,9 (CGMH). Bij de detectie van hersenbloedingen behaalde Pillar-0 een AUROC van >95 met slechts 1/20e van de data van de op een na meest data-efficiënte baseline. Pillar-0 en RATE samen bieden een open, klinisch rigoureuze basis voor het bouwen van hoogpresterende radiologische systemen, waardoor toepassingen mogelijk worden die voorheen onhaalbaar waren vanwege computationele, data- en evaluatiebeperkingen.
English
Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.