Autoencoders de Difusión Latente: Hacia un Aprendizaje de Representaciones No Supervisado Eficaz y Significativo en Imágenes Médicas
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging
April 11, 2025
Autores: Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman
cs.AI
Resumen
Este estudio presenta Latent Diffusion Autoencoder (LDAE), un novedoso marco de trabajo basado en difusión de tipo codificador-decodificador para el aprendizaje no supervisado eficiente y significativo en imágenes médicas, centrándose en la enfermedad de Alzheimer (EA) utilizando resonancias magnéticas cerebrales de la base de datos ADNI como caso de estudio. A diferencia de los autoencoders de difusión convencionales que operan en el espacio de la imagen, LDAE aplica el proceso de difusión en una representación latente comprimida, mejorando la eficiencia computacional y haciendo viable el aprendizaje de representaciones en imágenes médicas 3D. Para validar el enfoque propuesto, exploramos dos hipótesis clave: (i) LDAE captura efectivamente representaciones semánticas significativas en resonancias magnéticas cerebrales 3D asociadas con la EA y el envejecimiento, y (ii) LDAE logra una generación y reconstrucción de imágenes de alta calidad mientras mantiene la eficiencia computacional. Los resultados experimentales respaldan ambas hipótesis: (i) las evaluaciones con sonda lineal demuestran un rendimiento diagnóstico prometedor para la EA (ROC-AUC: 90%, ACC: 84%) y la predicción de edad (MAE: 4.1 años, RMSE: 5.2 años); (ii) las representaciones semánticas aprendidas permiten la manipulación de atributos, produciendo modificaciones anatómicamente plausibles; (iii) los experimentos de interpolación semántica muestran una reconstrucción sólida de escaneos faltantes, con un SSIM de 0.969 (MSE: 0.0019) para un intervalo de 6 meses. Incluso para intervalos más largos (24 meses), el modelo mantiene un rendimiento robusto (SSIM > 0.93, MSE < 0.004), indicando una capacidad para capturar tendencias de progresión temporal; (iv) en comparación con los autoencoders de difusión convencionales, LDAE aumenta significativamente el rendimiento de inferencia (20 veces más rápido) mientras también mejora la calidad de la reconstrucción. Estos hallazgos posicionan a LDAE como un marco prometedor para aplicaciones escalables en imágenes médicas, con el potencial de servir como un modelo base para el análisis de imágenes médicas. Código disponible en https://github.com/GabrieleLozupone/LDAE.
English
This study presents Latent Diffusion Autoencoder (LDAE), a novel
encoder-decoder diffusion-based framework for efficient and meaningful
unsupervised learning in medical imaging, focusing on Alzheimer disease (AD)
using brain MR from the ADNI database as a case study. Unlike conventional
diffusion autoencoders operating in image space, LDAE applies the diffusion
process in a compressed latent representation, improving computational
efficiency and making 3D medical imaging representation learning tractable. To
validate the proposed approach, we explore two key hypotheses: (i) LDAE
effectively captures meaningful semantic representations on 3D brain MR
associated with AD and ageing, and (ii) LDAE achieves high-quality image
generation and reconstruction while being computationally efficient.
Experimental results support both hypotheses: (i) linear-probe evaluations
demonstrate promising diagnostic performance for AD (ROC-AUC: 90%, ACC: 84%)
and age prediction (MAE: 4.1 years, RMSE: 5.2 years); (ii) the learned semantic
representations enable attribute manipulation, yielding anatomically plausible
modifications; (iii) semantic interpolation experiments show strong
reconstruction of missing scans, with SSIM of 0.969 (MSE: 0.0019) for a 6-month
gap. Even for longer gaps (24 months), the model maintains robust performance
(SSIM > 0.93, MSE < 0.004), indicating an ability to capture temporal
progression trends; (iv) compared to conventional diffusion autoencoders, LDAE
significantly increases inference throughput (20x faster) while also enhancing
reconstruction quality. These findings position LDAE as a promising framework
for scalable medical imaging applications, with the potential to serve as a
foundation model for medical image analysis. Code available at
https://github.com/GabrieleLozupone/LDAESummary
AI-Generated Summary