Autoencoders de Difusión Latente: Hacia un Aprendizaje de Representaciones No Supervisado Eficaz y Significativo en Imágenes Médicas

Resumen

Este estudio presenta Latent Diffusion Autoencoder (LDAE), un novedoso marco de trabajo basado en difusión de tipo codificador-decodificador para el aprendizaje no supervisado eficiente y significativo en imágenes médicas, centrándose en la enfermedad de Alzheimer (EA) utilizando resonancias magnéticas cerebrales de la base de datos ADNI como caso de estudio. A diferencia de los autoencoders de difusión convencionales que operan en el espacio de la imagen, LDAE aplica el proceso de difusión en una representación latente comprimida, mejorando la eficiencia computacional y haciendo viable el aprendizaje de representaciones en imágenes médicas 3D. Para validar el enfoque propuesto, exploramos dos hipótesis clave: (i) LDAE captura efectivamente representaciones semánticas significativas en resonancias magnéticas cerebrales 3D asociadas con la EA y el envejecimiento, y (ii) LDAE logra una generación y reconstrucción de imágenes de alta calidad mientras mantiene la eficiencia computacional. Los resultados experimentales respaldan ambas hipótesis: (i) las evaluaciones con sonda lineal demuestran un rendimiento diagnóstico prometedor para la EA (ROC-AUC: 90%, ACC: 84%) y la predicción de edad (MAE: 4.1 años, RMSE: 5.2 años); (ii) las representaciones semánticas aprendidas permiten la manipulación de atributos, produciendo modificaciones anatómicamente plausibles; (iii) los experimentos de interpolación semántica muestran una reconstrucción sólida de escaneos faltantes, con un SSIM de 0.969 (MSE: 0.0019) para un intervalo de 6 meses. Incluso para intervalos más largos (24 meses), el modelo mantiene un rendimiento robusto (SSIM > 0.93, MSE < 0.004), indicando una capacidad para capturar tendencias de progresión temporal; (iv) en comparación con los autoencoders de difusión convencionales, LDAE aumenta significativamente el rendimiento de inferencia (20 veces más rápido) mientras también mejora la calidad de la reconstrucción. Estos hallazgos posicionan a LDAE como un marco prometedor para aplicaciones escalables en imágenes médicas, con el potencial de servir como un modelo base para el análisis de imágenes médicas. Código disponible en https://github.com/GabrieleLozupone/LDAE.

English

This study presents Latent Diffusion Autoencoder (LDAE), a novel encoder-decoder diffusion-based framework for efficient and meaningful unsupervised learning in medical imaging, focusing on Alzheimer disease (AD) using brain MR from the ADNI database as a case study. Unlike conventional diffusion autoencoders operating in image space, LDAE applies the diffusion process in a compressed latent representation, improving computational efficiency and making 3D medical imaging representation learning tractable. To validate the proposed approach, we explore two key hypotheses: (i) LDAE effectively captures meaningful semantic representations on 3D brain MR associated with AD and ageing, and (ii) LDAE achieves high-quality image generation and reconstruction while being computationally efficient. Experimental results support both hypotheses: (i) linear-probe evaluations demonstrate promising diagnostic performance for AD (ROC-AUC: 90%, ACC: 84%) and age prediction (MAE: 4.1 years, RMSE: 5.2 years); (ii) the learned semantic representations enable attribute manipulation, yielding anatomically plausible modifications; (iii) semantic interpolation experiments show strong reconstruction of missing scans, with SSIM of 0.969 (MSE: 0.0019) for a 6-month gap. Even for longer gaps (24 months), the model maintains robust performance (SSIM > 0.93, MSE < 0.004), indicating an ability to capture temporal progression trends; (iv) compared to conventional diffusion autoencoders, LDAE significantly increases inference throughput (20x faster) while also enhancing reconstruction quality. These findings position LDAE as a promising framework for scalable medical imaging applications, with the potential to serve as a foundation model for medical image analysis. Code available at https://github.com/GabrieleLozupone/LDAE

Autoencoders de Difusión Latente: Hacia un Aprendizaje de Representaciones No Supervisado Eficaz y Significativo en Imágenes Médicas

Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Resumen

Support