Pillar-0: 영상의학 파운데이션 모델의 새로운 지평
Pillar-0: A New Frontier for Radiology Foundation Models
November 21, 2025
저자: Kumar Krishna Agrawal, Longchao Liu, Long Lian, Michael Nercessian, Natalia Harguindeguy, Yufu Wu, Peter Mikhael, Gigin Lin, Lecia V. Sequist, Florian Fintelmann, Trevor Darrell, Yutong Bai, Maggie Chung, Adam Yala
cs.AI
초록
영상의학은 현대 의학에서 필수적인 역할을 수행하지만, 영상 검사량의 증가 속도는 인력 증가 속도를 훨씬 앞지르고 있습니다. 파운데이션 모델은 영상의학 업무 전반을 지원할 수 있는 길을 제시하지만, 기존 의료 모델들은 한계가 뚜렷합니다. 볼륨 단위 CT와 MRI를 저해상도 2D 단층 영상으로 처리하고, 중요한 그레이스케일 대비 정보를 누락하며, 실제 임상 현장을 반영한 평가 체계가 부족합니다. 본 연구에서는 대규모 학술 센터의 복부-골반 CT 42,990건, 흉부 CT 86,411건, 두경부 CT 14,348건, 유방 MRI 11,543건으로 사전 학습된 영상의학 파운데이션 모델 Pillar-0와, 대규모 언어 모델(LLM)을 이용하여 366가지 영상의학 소견에 대한 구조화된 라벨을 거의 완벽한 정확도로 추출하는 확장 가능한 프레임워크 RATE를 소개합니다. 복부-골반 CT 14,230건, 흉부 CT 10,646건, 두경부 CT 4,906건, 유방 MRI 1,585건으로 구성된 내부 테스트셋에서 Pillar-0는 평균 AUROC 86.4, 88.0, 90.1, 82.9를 달성하며 새로운 성능 한계를确立(확립)했고, MedGemma(Google), MedImageInsight(Microsoft), Lingshu(Alibaba), Merlin(Stanford)을 7.8-15.8 AUROC 점수 차이로 능가하며 전체 태스크의 87.2%(319/366)에서 최고 성능을 기록했습니다. Pillar-0는 Stanford Abdominal CT 데이터셋에 대한 외부 검증에서도 Merlin(82.2 vs 80.6 AUROC)을 포함한 모든 기준 모델을 동일하게 능가했습니다. Pillar-0는 사전 학습 범위를 넘어선 태스크로도 확장 가능하여, 장기적인 폐암 위험 예측에서는 NLST 데이터셋에서 기존 최첨단 모델인 Sybil보다 C-index 3.0점 향상되었으며, MGH(5.9점)와 CGMH(1.9점) 데이터셋에서도 개선된 일반화 성능을 보였습니다. 뇌출혈 탐지에서는 가장 표본 효율성이 높은 다음 기준 모델 대비 1/20에 불과한 데이터만 사용하여 95 이상의 AUROC를 획득했습니다. Pillar-0와 RATE는 함께 개방적이며 임상적으로 엄격한 기반을 제공하여, 컴퓨팅 자원, 데이터, 평가 체계의 제약으로 인해 기존에는 실현 불가능했던 고성능 영상의학 시스템 구축과 응용을 가능하게 합니다.
English
Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.