Autoencodeurs à Diffusion Latente : Vers un Apprentissage de Représentations Non Supervisé Efficace et Significatif en Imagerie Médicale
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging
April 11, 2025
Auteurs: Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman
cs.AI
Résumé
Cette étude présente le Latent Diffusion Autoencoder (LDAE), un nouveau cadre encoder-décodeur basé sur la diffusion pour un apprentissage non supervisé efficace et significatif en imagerie médicale, en se concentrant sur la maladie d'Alzheimer (MA) en utilisant l'IRM cérébrale de la base de données ADNI comme étude de cas. Contrairement aux autoencodeurs de diffusion conventionnels opérant dans l'espace image, le LDAE applique le processus de diffusion dans une représentation latente compressée, améliorant ainsi l'efficacité computationnelle et rendant l'apprentissage de représentation en imagerie médicale 3D réalisable. Pour valider l'approche proposée, nous explorons deux hypothèses clés : (i) le LDAE capture efficacement des représentations sémantiques significatives sur les IRM cérébrales 3D associées à la MA et au vieillissement, et (ii) le LDAE atteint une génération et une reconstruction d'images de haute qualité tout en étant computationnellement efficace. Les résultats expérimentaux soutiennent ces deux hypothèses : (i) les évaluations par sonde linéaire démontrent des performances diagnostiques prometteuses pour la MA (ROC-AUC : 90 %, ACC : 84 %) et la prédiction de l'âge (MAE : 4,1 ans, RMSE : 5,2 ans) ; (ii) les représentations sémantiques apprises permettent une manipulation des attributs, produisant des modifications anatomiquement plausibles ; (iii) les expériences d'interpolation sémantique montrent une reconstruction solide des scans manquants, avec un SSIM de 0,969 (MSE : 0,0019) pour un écart de 6 mois. Même pour des écarts plus longs (24 mois), le modèle maintient des performances robustes (SSIM > 0,93, MSE < 0,004), indiquant une capacité à capturer les tendances de progression temporelle ; (iv) comparé aux autoencodeurs de diffusion conventionnels, le LDAE augmente significativement le débit d'inférence (20 fois plus rapide) tout en améliorant également la qualité de la reconstruction. Ces résultats positionnent le LDAE comme un cadre prometteur pour des applications d'imagerie médicale évolutives, avec le potentiel de servir de modèle de base pour l'analyse d'images médicales. Le code est disponible à l'adresse suivante : https://github.com/GabrieleLozupone/LDAE.
English
This study presents Latent Diffusion Autoencoder (LDAE), a novel
encoder-decoder diffusion-based framework for efficient and meaningful
unsupervised learning in medical imaging, focusing on Alzheimer disease (AD)
using brain MR from the ADNI database as a case study. Unlike conventional
diffusion autoencoders operating in image space, LDAE applies the diffusion
process in a compressed latent representation, improving computational
efficiency and making 3D medical imaging representation learning tractable. To
validate the proposed approach, we explore two key hypotheses: (i) LDAE
effectively captures meaningful semantic representations on 3D brain MR
associated with AD and ageing, and (ii) LDAE achieves high-quality image
generation and reconstruction while being computationally efficient.
Experimental results support both hypotheses: (i) linear-probe evaluations
demonstrate promising diagnostic performance for AD (ROC-AUC: 90%, ACC: 84%)
and age prediction (MAE: 4.1 years, RMSE: 5.2 years); (ii) the learned semantic
representations enable attribute manipulation, yielding anatomically plausible
modifications; (iii) semantic interpolation experiments show strong
reconstruction of missing scans, with SSIM of 0.969 (MSE: 0.0019) for a 6-month
gap. Even for longer gaps (24 months), the model maintains robust performance
(SSIM > 0.93, MSE < 0.004), indicating an ability to capture temporal
progression trends; (iv) compared to conventional diffusion autoencoders, LDAE
significantly increases inference throughput (20x faster) while also enhancing
reconstruction quality. These findings position LDAE as a promising framework
for scalable medical imaging applications, with the potential to serve as a
foundation model for medical image analysis. Code available at
https://github.com/GabrieleLozupone/LDAESummary
AI-Generated Summary