Pilar-0: Uma Nova Fronteira para Modelos de Base em Radiologia

Resumo

A radiologia desempenha um papel integral na medicina moderna, porém o aumento dos volumes de imagem superou em muito o crescimento da força de trabalho. Os modelos de base oferecem um caminho para auxiliar em todo o espectro de tarefas radiológicas, mas os modelos médicos existentes permanecem limitados: eles processam tomografias computadorizadas e ressonâncias magnéticas volumétricas como fatias 2D de baixa fidelidade, descartam informações críticas de contraste em tons de cinza e carecem de estruturas de avaliação que reflitam a prática clínica real. Apresentamos o Pillar-0, um modelo de base para radiologia pré-treinado em 42.990 TC de abdômen-pélvis, 86.411 TC de tórax, 14.348 TC de crânio e 11.543 RM de mama de um grande centro acadêmico, juntamente com o RATE, uma estrutura escalável que extrai rótulos estruturados para 366 achados radiológicos com precisão quase perfeita usando LLMs. Em conjuntos de teste internos de 14.230 TC de abdômen-pélvis, 10.646 TC de tórax, 4.906 TC de crânio e 1.585 RM de mama, o Pillar-0 estabelece uma nova fronteira de desempenho, alcançando AUROCs médios de 86,4, 88,0, 90,1 e 82,9, superando o MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) e Merlin (Stanford) por 7,8-15,8 pontos de AUROC e classificando-se como o melhor em 87,2% (319/366) das tarefas. O Pillar-0 supera igualmente todas as baselines numa validação externa no conjunto de dados Stanford Abdominal CT, incluindo o Merlin (82,2 vs 80,6 AUROC). O Pillar-0 estende-se a tarefas além do seu pré-treinamento, como a previsão de risco de cancro do pulmão de longo horizonte, onde melhora o estado da arte Sybil em 3,0 pontos de índice C no NLST, e generaliza com ganhos de 5,9 (MGH) e 1,9 (CGMH). Na deteção de hemorragia cerebral, o Pillar-0 obteve um AUROC >95 utilizando apenas 1/20 dos dados da próxima baseline mais eficiente em termos de amostras. O Pillar-0 e o RATE, em conjunto, fornecem uma base aberta e clinicamente rigorosa para a construção de sistemas de radiologia de alto desempenho, permitindo aplicações que anteriormente eram inviáveis devido a restrições computacionais, de dados e de avaliação.

English

Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. We introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using LLMs. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2\% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford Abdominal CT dataset, including Merlin (82.2 vs 80.6 AUROC). Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1/20th of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.