Hacia un Preentrenamiento Escalable de Lenguaje-Imagen para Imágenes Médicas 3D
Towards Scalable Language-Image Pre-training for 3D Medical Imaging
May 28, 2025
Autores: Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon
cs.AI
Resumen
El preentrenamiento de lenguaje-imagen ha demostrado un rendimiento sólido en imágenes médicas 2D, pero su éxito en modalidades 3D como la tomografía computarizada (TC) y la resonancia magnética (RM) sigue siendo limitado debido a las altas demandas computacionales de los datos volumétricos, lo que representa una barrera significativa para el entrenamiento en estudios clínicos a gran escala y no curados. En este estudio, presentamos la Atención Jerárquica para el Preentrenamiento de Lenguaje-Imagen (HLIP, por sus siglas en inglés), un marco de preentrenamiento escalable para imágenes médicas 3D. HLIP adopta un mecanismo de atención jerárquica ligero inspirado en la jerarquía natural de los datos radiológicos: corte, exploración y estudio. Este mecanismo muestra una fuerte generalización, por ejemplo, un aumento del +4.3% en el AUC macro en el benchmark Rad-ChestCT cuando se preentrena en CT-RATE. Además, la eficiencia computacional de HLIP permite el entrenamiento directo en conjuntos de datos no curados. Entrenado en 220,000 pacientes con 3.13 millones de exploraciones para RM cerebral y 240,000 pacientes con 1.44 millones de exploraciones para TC de cabeza, HLIP alcanza un rendimiento de vanguardia, por ejemplo, un aumento del +32.4% en la precisión balanceada en el benchmark de RM cerebral de acceso público propuesto Pub-Brain-5; y un aumento del +1.4% y +6.9% en el AUC macro en los benchmarks de TC de cabeza RSNA y CQ500, respectivamente. Estos resultados demuestran que, con HLIP, el preentrenamiento directo en conjuntos de datos clínicos no curados es una dirección escalable y efectiva para el preentrenamiento de lenguaje-imagen en imágenes médicas 3D. El código está disponible en https://github.com/Zch0414/hlip.
English
Language-image pre-training has demonstrated strong performance in 2D medical
imaging, but its success in 3D modalities such as CT and MRI remains limited
due to the high computational demands of volumetric data, which pose a
significant barrier to training on large-scale, uncurated clinical studies. In
this study, we introduce Hierarchical attention for Language-Image Pre-training
(HLIP), a scalable pre-training framework for 3D medical imaging. HLIP adopts a
lightweight hierarchical attention mechanism inspired by the natural hierarchy
of radiology data: slice, scan, and study. This mechanism exhibits strong
generalizability, e.g., +4.3% macro AUC on the Rad-ChestCT benchmark when
pre-trained on CT-RATE. Moreover, the computational efficiency of HLIP enables
direct training on uncurated datasets. Trained on 220K patients with 3.13
million scans for brain MRI and 240K patients with 1.44 million scans for head
CT, HLIP achieves state-of-the-art performance, e.g., +32.4% balanced ACC on
the proposed publicly available brain MRI benchmark Pub-Brain-5; +1.4% and
+6.9% macro AUC on head CT benchmarks RSNA and CQ500, respectively. These
results demonstrate that, with HLIP, directly pre-training on uncurated
clinical datasets is a scalable and effective direction for language-image
pre-training in 3D medical imaging. The code is available at
https://github.com/Zch0414/hlipSummary
AI-Generated Summary