ChatPaper.aiChatPaper

ドメイン固有の潜在表現による拡散ベース医療画像超解像の忠実度向上

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

April 14, 2026
著者: Sebastian Cajas, Ashaba Judith, Rahul Gorijavolu, Sahil Kapadia, Hillary Clinton Kasimbazi, Leo Kinyera, Emmanuel Paul Kwesiga, Sri Sri Jaithra Varma Manthena, Luis Filipe Nakayama, Ninsiima Doreen, Leo Anthony Celi
cs.AI

要旨

医用画像超解像における潜在拡散モデルは、自然画像用に設計された変分オートエンコーダを普遍的に継承している。本研究では、拡散アーキテクチャではなく、このデフォルト選択が再構成品質に対する支配的な制約要因であることを示す。他の全てのパイプライン構成要素を固定した制御実験において、汎用のStable Diffusion VAEを、160万枚以上の医用画像で事前学習されたドメイン特化型オートエンコーダであるMedVAEに置換すると、膝MRI、脳MRI、胸部X線画像(n = 1,820)においてPSNRが+2.91~+3.29 dB向上した(Cohen's d = 1.37~1.86、全てp < 10^{-20}、Wilコクソンの符号順位検定)。ウェーブレット分解により、この優位性が解剖学的に関連する微細構造を符号化する最高空間周波数帯域に局在することが明らかとなった。推論スケジュール、予測ターゲット、生成アーキテクチャにわたるアブレーション実験により、性能差が±0.15 dB以内で安定していること、一方で手法間の幻覚発生率は同等であることが確認された(全データセットでCohen's h < 0.02)。これにより、再構成忠実度と生成的幻覚は独立したパイプライン構成要素によって支配されることが立証された。これらの結果は実用的な選定基準を提供する:拡散訓練を必要とせず計測可能なオートエンコーダの再構成品質が、下流の超解像性能を予測する(R^2 = 0.67)。これは、拡散アーキテクチャの探索に先立ってドメイン特化型VAEを選択すべきであることを示唆している。コードと学習済みモデル重みはhttps://github.com/sebasmos/latent-srで公開されている。
English
Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.
PDF11April 16, 2026