Latente Diffusions-Autoencoder: Auf dem Weg zu effizientem und aussagekräftigem unüberwachtem Repräsentationslernen in der medizinischen Bildgebung
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging
April 11, 2025
Autoren: Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman
cs.AI
Zusammenfassung
Diese Studie stellt den Latent Diffusion Autoencoder (LDAE) vor, ein neuartiges Encoder-Decoder-Framework auf Diffusionsbasis für effizientes und bedeutungsvolles unüberwachtes Lernen in der medizinischen Bildgebung, mit Fokus auf die Alzheimer-Krankheit (AD) unter Verwendung von Gehirn-MRT-Daten aus der ADNI-Datenbank als Fallstudie. Im Gegensatz zu herkömmlichen Diffusions-Autoencodern, die im Bildraum arbeiten, wendet der LDAE den Diffusionsprozess in einer komprimierten latenten Repräsentation an, was die Recheneffizienz verbessert und das Lernen von 3D-medizinischen Bildrepräsentationen handhabbar macht. Zur Validierung des vorgeschlagenen Ansatzes untersuchen wir zwei Schlüsselhypothesen: (i) Der LDAE erfasst effektiv bedeutungsvolle semantische Repräsentationen in 3D-Gehirn-MRTs, die mit AD und Alterung assoziiert sind, und (ii) der LDAE erreicht eine hochwertige Bildgenerierung und -rekonstruktion bei gleichzeitiger Recheneffizienz. Die experimentellen Ergebnisse unterstützen beide Hypothesen: (i) Linear-Probe-Auswertungen zeigen vielversprechende diagnostische Leistungen für AD (ROC-AUC: 90%, ACC: 84%) und Altersvorhersage (MAE: 4,1 Jahre, RMSE: 5,2 Jahre); (ii) die gelernten semantischen Repräsentationen ermöglichen Attributmanipulationen, die anatomisch plausible Modifikationen erzeugen; (iii) Semantische Interpolationsexperimente zeigen eine starke Rekonstruktion fehlender Scans mit einem SSIM von 0,969 (MSE: 0,0019) für eine Lücke von 6 Monaten. Selbst für längere Lücken (24 Monate) behält das Modell eine robuste Leistung bei (SSIM > 0,93, MSE < 0,004), was auf die Fähigkeit hinweist, zeitliche Fortschrittstrends zu erfassen; (iv) im Vergleich zu herkömmlichen Diffusions-Autoencodern erhöht der LDAE den Inferenzdurchsatz signifikant (20x schneller) und verbessert gleichzeitig die Rekonstruktionsqualität. Diese Ergebnisse positionieren den LDAE als ein vielversprechendes Framework für skalierbare medizinische Bildgebungsanwendungen, mit dem Potenzial, als Grundlagenmodell für die medizinische Bildanalyse zu dienen. Code verfügbar unter https://github.com/GabrieleLozupone/LDAE.
English
This study presents Latent Diffusion Autoencoder (LDAE), a novel
encoder-decoder diffusion-based framework for efficient and meaningful
unsupervised learning in medical imaging, focusing on Alzheimer disease (AD)
using brain MR from the ADNI database as a case study. Unlike conventional
diffusion autoencoders operating in image space, LDAE applies the diffusion
process in a compressed latent representation, improving computational
efficiency and making 3D medical imaging representation learning tractable. To
validate the proposed approach, we explore two key hypotheses: (i) LDAE
effectively captures meaningful semantic representations on 3D brain MR
associated with AD and ageing, and (ii) LDAE achieves high-quality image
generation and reconstruction while being computationally efficient.
Experimental results support both hypotheses: (i) linear-probe evaluations
demonstrate promising diagnostic performance for AD (ROC-AUC: 90%, ACC: 84%)
and age prediction (MAE: 4.1 years, RMSE: 5.2 years); (ii) the learned semantic
representations enable attribute manipulation, yielding anatomically plausible
modifications; (iii) semantic interpolation experiments show strong
reconstruction of missing scans, with SSIM of 0.969 (MSE: 0.0019) for a 6-month
gap. Even for longer gaps (24 months), the model maintains robust performance
(SSIM > 0.93, MSE < 0.004), indicating an ability to capture temporal
progression trends; (iv) compared to conventional diffusion autoencoders, LDAE
significantly increases inference throughput (20x faster) while also enhancing
reconstruction quality. These findings position LDAE as a promising framework
for scalable medical imaging applications, with the potential to serve as a
foundation model for medical image analysis. Code available at
https://github.com/GabrieleLozupone/LDAESummary
AI-Generated Summary