К масштабируемому предобучению на основе языка и изображений для 3D медицинской визуализации
Towards Scalable Language-Image Pre-training for 3D Medical Imaging
May 28, 2025
Авторы: Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon
cs.AI
Аннотация
Предварительное обучение на основе связей между языком и изображениями показало высокую производительность в 2D медицинской визуализации, но его успех в 3D модальностях, таких как КТ и МРТ, остается ограниченным из-за высоких вычислительных требований объемных данных, что создает значительные препятствия для обучения на крупномасштабных, некурированных клинических исследованиях. В данной работе мы представляем Иерархическое внимание для предварительного обучения на основе языка и изображений (HLIP), масштабируемую структуру предварительного обучения для 3D медицинской визуализации. HLIP использует легковесный механизм иерархического внимания, вдохновленный естественной иерархией радиологических данных: срез, сканирование и исследование. Этот механизм демонстрирует высокую обобщаемость, например, +4,3% макро AUC на бенчмарке Rad-ChestCT при предварительном обучении на CT-RATE. Более того, вычислительная эффективность HLIP позволяет проводить прямое обучение на некурированных наборах данных. Обучившись на 220 тыс. пациентов с 3,13 млн сканирований для МРТ мозга и 240 тыс. пациентов с 1,44 млн сканирований для КТ головы, HLIP достигает наилучших результатов, например, +32,4% сбалансированной точности на предложенном публично доступном бенчмарке Pub-Brain-5 для МРТ мозга; +1,4% и +6,9% макро AUC на бенчмарках RSNA и CQ500 для КТ головы соответственно. Эти результаты демонстрируют, что с HLIP прямое предварительное обучение на некурированных клинических наборах данных является масштабируемым и эффективным направлением для предварительного обучения на основе языка и изображений в 3D медицинской визуализации. Код доступен по адресу https://github.com/Zch0414/hlip.
English
Language-image pre-training has demonstrated strong performance in 2D medical
imaging, but its success in 3D modalities such as CT and MRI remains limited
due to the high computational demands of volumetric data, which pose a
significant barrier to training on large-scale, uncurated clinical studies. In
this study, we introduce Hierarchical attention for Language-Image Pre-training
(HLIP), a scalable pre-training framework for 3D medical imaging. HLIP adopts a
lightweight hierarchical attention mechanism inspired by the natural hierarchy
of radiology data: slice, scan, and study. This mechanism exhibits strong
generalizability, e.g., +4.3% macro AUC on the Rad-ChestCT benchmark when
pre-trained on CT-RATE. Moreover, the computational efficiency of HLIP enables
direct training on uncurated datasets. Trained on 220K patients with 3.13
million scans for brain MRI and 240K patients with 1.44 million scans for head
CT, HLIP achieves state-of-the-art performance, e.g., +32.4% balanced ACC on
the proposed publicly available brain MRI benchmark Pub-Brain-5; +1.4% and
+6.9% macro AUC on head CT benchmarks RSNA and CQ500, respectively. These
results demonstrate that, with HLIP, directly pre-training on uncurated
clinical datasets is a scalable and effective direction for language-image
pre-training in 3D medical imaging. The code is available at
https://github.com/Zch0414/hlipSummary
AI-Generated Summary