Autoencoders de Difusão Latente: Rumo a uma Aprendizagem de Representação Não Supervisionada Eficiente e Significativa em Imagens Médicas
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging
April 11, 2025
Autores: Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman
cs.AI
Resumo
Este estudo apresenta o Latent Diffusion Autoencoder (LDAE), uma nova estrutura baseada em difusão do tipo codificador-decodificador para aprendizado não supervisionado eficiente e significativo em imagens médicas, com foco na doença de Alzheimer (DA) utilizando ressonância magnética cerebral (RM) do banco de dados ADNI como estudo de caso. Diferente dos autoencoders de difusão convencionais que operam no espaço de imagem, o LDAE aplica o processo de difusão em uma representação latente comprimida, melhorando a eficiência computacional e tornando o aprendizado de representação de imagens médicas 3D viável. Para validar a abordagem proposta, exploramos duas hipóteses principais: (i) o LDAE captura efetivamente representações semânticas significativas em RM cerebral 3D associadas à DA e ao envelhecimento, e (ii) o LDAE alcança geração e reconstrução de imagens de alta qualidade enquanto mantém eficiência computacional. Os resultados experimentais apoiam ambas as hipóteses: (i) avaliações com sondas lineares demonstram desempenho diagnóstico promissor para DA (ROC-AUC: 90%, ACC: 84%) e predição de idade (MAE: 4,1 anos, RMSE: 5,2 anos); (ii) as representações semânticas aprendidas permitem manipulação de atributos, gerando modificações anatomicamente plausíveis; (iii) experimentos de interpolação semântica mostram reconstrução robusta de exames ausentes, com SSIM de 0,969 (MSE: 0,0019) para um intervalo de 6 meses. Mesmo para intervalos maiores (24 meses), o modelo mantém desempenho robusto (SSIM > 0,93, MSE < 0,004), indicando capacidade de capturar tendências de progressão temporal; (iv) comparado a autoencoders de difusão convencionais, o LDAE aumenta significativamente a taxa de inferência (20x mais rápido) enquanto também melhora a qualidade da reconstrução. Esses resultados posicionam o LDAE como uma estrutura promissora para aplicações escaláveis em imagens médicas, com potencial para servir como um modelo base para análise de imagens médicas. O código está disponível em https://github.com/GabrieleLozupone/LDAE.
English
This study presents Latent Diffusion Autoencoder (LDAE), a novel
encoder-decoder diffusion-based framework for efficient and meaningful
unsupervised learning in medical imaging, focusing on Alzheimer disease (AD)
using brain MR from the ADNI database as a case study. Unlike conventional
diffusion autoencoders operating in image space, LDAE applies the diffusion
process in a compressed latent representation, improving computational
efficiency and making 3D medical imaging representation learning tractable. To
validate the proposed approach, we explore two key hypotheses: (i) LDAE
effectively captures meaningful semantic representations on 3D brain MR
associated with AD and ageing, and (ii) LDAE achieves high-quality image
generation and reconstruction while being computationally efficient.
Experimental results support both hypotheses: (i) linear-probe evaluations
demonstrate promising diagnostic performance for AD (ROC-AUC: 90%, ACC: 84%)
and age prediction (MAE: 4.1 years, RMSE: 5.2 years); (ii) the learned semantic
representations enable attribute manipulation, yielding anatomically plausible
modifications; (iii) semantic interpolation experiments show strong
reconstruction of missing scans, with SSIM of 0.969 (MSE: 0.0019) for a 6-month
gap. Even for longer gaps (24 months), the model maintains robust performance
(SSIM > 0.93, MSE < 0.004), indicating an ability to capture temporal
progression trends; (iv) compared to conventional diffusion autoencoders, LDAE
significantly increases inference throughput (20x faster) while also enhancing
reconstruction quality. These findings position LDAE as a promising framework
for scalable medical imaging applications, with the potential to serve as a
foundation model for medical image analysis. Code available at
https://github.com/GabrieleLozupone/LDAESummary
AI-Generated Summary