Vers un pré-entraînement évolutif langage-image pour l'imagerie médicale 3D
Towards Scalable Language-Image Pre-training for 3D Medical Imaging
May 28, 2025
Auteurs: Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon
cs.AI
Résumé
Le pré-entraînement langage-image a démontré des performances solides dans l'imagerie médicale 2D, mais son succès dans les modalités 3D telles que la tomodensitométrie (CT) et l'imagerie par résonance magnétique (IRM) reste limité en raison des exigences computationnelles élevées des données volumétriques, qui constituent un obstacle majeur à l'entraînement sur des études cliniques non triées à grande échelle. Dans cette étude, nous introduisons l'attention hiérarchique pour le pré-entraînement langage-image (HLIP), un cadre de pré-entraînement évolutif pour l'imagerie médicale 3D. HLIP adopte un mécanisme d'attention hiérarchique léger inspiré par la hiérarchie naturelle des données radiologiques : coupe, examen et étude. Ce mécanisme présente une forte généralisabilité, par exemple, une augmentation de 4,3 % de l'AUC macro sur le benchmark Rad-ChestCT lorsqu'il est pré-entraîné sur CT-RATE. De plus, l'efficacité computationnelle de HLIP permet un entraînement direct sur des ensembles de données non triés. Entraîné sur 220 000 patients avec 3,13 millions d'examens pour l'IRM cérébrale et 240 000 patients avec 1,44 million d'examens pour la tomodensitométrie crânienne, HLIP atteint des performances de pointe, par exemple, une augmentation de 32,4 % de l'exactitude équilibrée sur le benchmark d'IRM cérébrale Pub-Brain-5 proposé et accessible au public ; des augmentations de 1,4 % et 6,9 % de l'AUC macro sur les benchmarks de tomodensitométrie crânienne RSNA et CQ500, respectivement. Ces résultats démontrent qu'avec HLIP, le pré-entraînement direct sur des ensembles de données cliniques non triés constitue une direction évolutive et efficace pour le pré-entraînement langage-image dans l'imagerie médicale 3D. Le code est disponible à l'adresse suivante : https://github.com/Zch0414/hlip.
English
Language-image pre-training has demonstrated strong performance in 2D medical
imaging, but its success in 3D modalities such as CT and MRI remains limited
due to the high computational demands of volumetric data, which pose a
significant barrier to training on large-scale, uncurated clinical studies. In
this study, we introduce Hierarchical attention for Language-Image Pre-training
(HLIP), a scalable pre-training framework for 3D medical imaging. HLIP adopts a
lightweight hierarchical attention mechanism inspired by the natural hierarchy
of radiology data: slice, scan, and study. This mechanism exhibits strong
generalizability, e.g., +4.3% macro AUC on the Rad-ChestCT benchmark when
pre-trained on CT-RATE. Moreover, the computational efficiency of HLIP enables
direct training on uncurated datasets. Trained on 220K patients with 3.13
million scans for brain MRI and 240K patients with 1.44 million scans for head
CT, HLIP achieves state-of-the-art performance, e.g., +32.4% balanced ACC on
the proposed publicly available brain MRI benchmark Pub-Brain-5; +1.4% and
+6.9% macro AUC on head CT benchmarks RSNA and CQ500, respectively. These
results demonstrate that, with HLIP, directly pre-training on uncurated
clinical datasets is a scalable and effective direction for language-image
pre-training in 3D medical imaging. The code is available at
https://github.com/Zch0414/hlipSummary
AI-Generated Summary