潜在拡散オートエンコーダ:医療画像における効率的で有意義な教師なし表現学習に向けて
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging
April 11, 2025
著者: Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman
cs.AI
要旨
本研究では、Latent Diffusion Autoencoder(LDAE)という新しいエンコーダ-デコーダ型の拡散ベースフレームワークを提案する。このフレームワークは、医療画像における効率的で意味のある教師なし学習を実現するもので、特にアルツハイマー病(AD)に焦点を当て、ADNIデータベースの脳MRIをケーススタディとして使用している。従来の画像空間で動作する拡散オートエンコーダとは異なり、LDAEは圧縮された潜在表現に拡散プロセスを適用することで、計算効率を向上させ、3D医療画像の表現学習を実現可能にする。提案手法を検証するため、以下の2つの主要な仮説を探求する:(i)LDAEは、ADと加齢に関連する3D脳MRIの意味のあるセマンティック表現を効果的に捉えること、(ii)LDAEは計算効率が高い一方で、高品質な画像生成と再構築を実現すること。実験結果は両方の仮説を支持する:(i)線形プローブ評価では、ADの診断性能(ROC-AUC: 90%, ACC: 84%)と年齢予測(MAE: 4.1年, RMSE: 5.2年)において有望な結果を示した;(ii)学習されたセマンティック表現は属性操作を可能にし、解剖学的に妥当な変更を実現する;(iii)セマンティック補間実験では、欠損スキャンの強力な再構築が示され、6ヶ月間隔でのSSIMは0.969(MSE: 0.0019)であった。さらに長い間隔(24ヶ月)でも、モデルは堅牢な性能を維持し(SSIM > 0.93, MSE < 0.004)、時間的進行傾向を捉える能力を示した;(iv)従来の拡散オートエンコーダと比較して、LDAEは推論スループットを大幅に向上させ(20倍高速)、再構築品質も向上させた。これらの知見は、LDAEがスケーラブルな医療画像アプリケーションのための有望なフレームワークであり、医療画像分析の基盤モデルとしての潜在能力を持つことを示している。コードはhttps://github.com/GabrieleLozupone/LDAEで公開されている。
English
This study presents Latent Diffusion Autoencoder (LDAE), a novel
encoder-decoder diffusion-based framework for efficient and meaningful
unsupervised learning in medical imaging, focusing on Alzheimer disease (AD)
using brain MR from the ADNI database as a case study. Unlike conventional
diffusion autoencoders operating in image space, LDAE applies the diffusion
process in a compressed latent representation, improving computational
efficiency and making 3D medical imaging representation learning tractable. To
validate the proposed approach, we explore two key hypotheses: (i) LDAE
effectively captures meaningful semantic representations on 3D brain MR
associated with AD and ageing, and (ii) LDAE achieves high-quality image
generation and reconstruction while being computationally efficient.
Experimental results support both hypotheses: (i) linear-probe evaluations
demonstrate promising diagnostic performance for AD (ROC-AUC: 90%, ACC: 84%)
and age prediction (MAE: 4.1 years, RMSE: 5.2 years); (ii) the learned semantic
representations enable attribute manipulation, yielding anatomically plausible
modifications; (iii) semantic interpolation experiments show strong
reconstruction of missing scans, with SSIM of 0.969 (MSE: 0.0019) for a 6-month
gap. Even for longer gaps (24 months), the model maintains robust performance
(SSIM > 0.93, MSE < 0.004), indicating an ability to capture temporal
progression trends; (iv) compared to conventional diffusion autoencoders, LDAE
significantly increases inference throughput (20x faster) while also enhancing
reconstruction quality. These findings position LDAE as a promising framework
for scalable medical imaging applications, with the potential to serve as a
foundation model for medical image analysis. Code available at
https://github.com/GabrieleLozupone/LDAESummary
AI-Generated Summary