Pillar-0: Eine neue Ära für radiologische Foundation-Modelle
Pillar-0: A New Frontier for Radiology Foundation Models
November 21, 2025
papers.authors: Kumar Krishna Agrawal, Longchao Liu, Long Lian, Michael Nercessian, Natalia Harguindeguy, Yufu Wu, Peter Mikhael, Gigin Lin, Lecia V. Sequist, Florian Fintelmann, Trevor Darrell, Yutong Bai, Maggie Chung, Adam Yala
cs.AI
papers.abstract
Die Radiologie spielt eine integrale Rolle in der modernen Medizin, doch die steigenden Bildgebungsvolumen haben das Wachstum der Arbeitskräfte bei weitem übertroffen. Foundation-Modelle bieten einen Weg, um bei der gesamten Bandbreite radiologischer Aufgaben zu unterstützen, doch bestehende medizinische Modelle sind nach wie vor begrenzt: Sie verarbeiten volumetrische CT- und MRT-Daten als niederauflösende 2D-Schnitte, verwerfen kritische Graustufen-Kontrastinformationen und es fehlen ihnen Bewertungsrahmen, die die reale klinische Praxis widerspiegeln. Wir stellen Pillar-0 vor, ein radiologisches Foundation-Modell, das auf 42.990 Abdomen-Becken-CTs, 86.411 Thorax-CTs, 14.348 Schädel-CTs und 11.543 Mamma-MRTs eines großen akademischen Zentrums vortrainiert wurde, zusammen mit RATE, einem skalierbaren Framework, das mit nahezu perfekter Genauigkeit strukturierte Labels für 366 radiologische Befunde unter Verwendung von LLMs extrahiert. Über interne Testsets von 14.230 Abdomen-Becken-CTs, 10.646 Thorax-CTs, 4.906 Schädel-CTs und 1.585 Mamma-MRTs hinweg etabliert Pillar-0 eine neue Leistungsgrenze und erreicht mittlere AUROCs von 86,4, 88,0, 90,1 und 82,9, wobei es MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) und Merlin (Stanford) um 7,8–15,8 AUROC-Punkte übertrifft und in 87,2 % (319/366) der Aufgaben die beste Platzierung erreicht. Pillar-0 übertrifft ebenfalls alle Vergleichsmodelle in einer externen Validierung am Stanford Abdominal CT-Datensatz, einschließlich Merlin (82,2 vs. 80,6 AUROC). Pillar-0 erstreckt sich auf Aufgaben jenseits seines Vortrainings, wie die langfristige Lungenkrebsrisikovorhersage, bei der es den state-of-the-art Sybil auf NLST um 3,0 C-Index-Punkte verbessert und mit Gewinnen von 5,9 (MGH) und 1,9 (CGMH) generalisiert. Bei der Hirnblutungsdetektion erzielte Pillar-0 einen AUROC von >95, wobei nur 1/20 der Daten des nächstprobeneffizientesten Vergleichsmodells verwendet wurden. Pillar-0 und RATE zusammen bilden eine offene, klinisch rigorose Grundlage für den Aufbau hochleistungsfähiger radiologischer Systeme und ermöglichen Anwendungen, die zuvor aufgrund von Rechen-, Daten- und Bewertungsbeschränkungen nicht realisierbar waren.
English
Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.