ChatPaper.aiChatPaper

Pilar-0: Una Nueva Frontera para los Modelos Fundacionales en Radiología

Pillar-0: A New Frontier for Radiology Foundation Models

November 21, 2025
Autores: Kumar Krishna Agrawal, Longchao Liu, Long Lian, Michael Nercessian, Natalia Harguindeguy, Yufu Wu, Peter Mikhael, Gigin Lin, Lecia V. Sequist, Florian Fintelmann, Trevor Darrell, Yutong Bai, Maggie Chung, Adam Yala
cs.AI

Resumen

La radiología desempeña un papel integral en la medicina moderna, pero el creciente volumen de estudios de imagen ha superado con creces el crecimiento de la fuerza laboral. Los modelos fundacionales ofrecen un camino para asistir en todo el espectro de tareas radiológicas, pero los modelos médicos existentes siguen siendo limitados: procesan las tomografías computarizadas (TC) y resonancias magnéticas (RM) volumétricas como cortes 2D de baja fidelidad, descartan información crítica de contraste en escala de grises y carecen de marcos de evaluación que reflejen la práctica clínica real. Presentamos Pillar-0, un modelo fundacional para radiología preentrenado con 42,990 TC de abdomen-pelvis, 86,411 TC de tórax, 14,348 TC de cráneo y 11,543 RM de mama de un gran centro académico, junto con RATE, un marco escalable que extrae etiquetas estructuradas para 366 hallazgos radiológicos con una precisión casi perfecta utilizando modelos de lenguaje grande (LLM). En conjuntos de prueba internos de 14,230 TC de abdomen-pelvis, 10,646 TC de tórax, 4,906 TC de cráneo y 1,585 RM de mama, Pillar-0 establece una nueva frontera de rendimiento, logrando AUROC promedio de 86.4, 88.0, 90.1 y 82.9, superando a MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) y Merlin (Stanford) por 7.8-15.8 puntos de AUROC y clasificando como el mejor en el 87.2% (319/366) de las tareas. Pillar-0 supera de manera similar a todos los modelos de referencia en una validación externa con el conjunto de datos Stanford Abdominal CT, incluido Merlin (82.2 vs 80.6 AUROC). Pillar-0 se extiende a tareas más allá de su preentrenamiento, como la predicción de riesgo de cáncer de pulmón a largo plazo, donde mejora el estado del arte de Sybil en 3.0 puntos de índice C en el NLST, y se generaliza con ganancias de 5.9 (MGH) y 1.9 (CGMH). En la detección de hemorragia cerebral, Pillar-0 obtuvo un AUROC >95 utilizando solo 1/20 de los datos del siguiente modelo de referencia más eficiente en muestras. Pillar-0 y RATE juntos proporcionan una base abierta y clínicamente rigurosa para construir sistemas radiológicos de alto rendimiento, permitiendo aplicaciones que antes eran inviables debido a limitaciones computacionales, de datos y de evaluación.
English
Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.
PDF222February 7, 2026