Domeinspecifieke Latente Representaties Verbeteren de Nauwkeurigheid van Diffusiegebaseerde Superresolutie bij Medische Beeldvorming
Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution
April 14, 2026
Auteurs: Sebastian Cajas, Ashaba Judith, Rahul Gorijavolu, Sahil Kapadia, Hillary Clinton Kasimbazi, Leo Kinyera, Emmanuel Paul Kwesiga, Sri Sri Jaithra Varma Manthena, Luis Filipe Nakayama, Ninsiima Doreen, Leo Anthony Celi
cs.AI
Samenvatting
Latente diffusiemodellen voor medische beeldsuperresolutie erven universeel variational autoencoders over die zijn ontworpen voor natuurlijke foto's. Wij tonen aan dat deze standaardkeuze, en niet de diffusie-architectuur, de dominante beperking vormt voor de reconstructiekwaliteit. In een gecontroleerd experiment waarbij alle andere pijplijncomponenten constant werden gehouden, leverde het vervangen van de generieke Stable Diffusion VAE door MedVAE, een domeinspecifieke autoencoder voorgetraind op meer dan 1,6 miljoen medische beelden, een verbetering van +2,91 tot +3,29 dB PSNR op voor knie-MRI, hersen-MRI en thoraxfoto's (n = 1.820; Cohen's d = 1,37 tot 1,86, alle p < 10^{-20}, Wilcoxon rangtekentoets). Wavelet-decompositie lokaliseert het voordeel in de fijnste ruimtelijke frequentiebanden die anatomisch relevante fijnstructuur coderen. Ablatie-experimenten over inferentieschema's, voorspellingsdoelen en generatieve architecturen bevestigen dat het kwaliteitsverschil stabiel is binnen plus of min 0,15 dB, terwijl de hallucinatiefrequenties vergelijkbaar blijven tussen methoden (Cohen's h < 0,02 voor alle datasets). Dit stelt vast dat reconstructiegetrouwheid en generatieve hallucinaties worden bepaald door onafhankelijke pijplijncomponenten. Deze resultaten bieden een praktisch screeningscriterium: de reconstructiekwaliteit van de autoencoder, meetbaar zonder diffusietraining, voorspelt de uiteindelijke SR-prestatie (R² = 0,67), wat suggereert dat domeinspecifieke VAE-selectie moet voorafgaan aan diffusie-architectuurzoekopdrachten. Code en getrainde modelgewichten zijn openbaar beschikbaar op https://github.com/sebasmos/latent-sr.
English
Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.