Domänenspezifische latente Repräsentationen verbessern die Bildqualität bei diffusionsbasierter medizinischer Bildsuperauflösung
Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution
April 14, 2026
Autoren: Sebastian Cajas, Ashaba Judith, Rahul Gorijavolu, Sahil Kapadia, Hillary Clinton Kasimbazi, Leo Kinyera, Emmanuel Paul Kwesiga, Sri Sri Jaithra Varma Manthena, Luis Filipe Nakayama, Ninsiima Doreen, Leo Anthony Celi
cs.AI
Zusammenfassung
Latente Diffusionsmodelle für medizinische Bildsuperauflösung übernehmen universell variationale Autoencoder, die für natürliche Fotografien entwickelt wurden. Wir zeigen, dass diese Standardwahl – nicht die Diffusionsarchitektur – die dominierende Beschränkung der Rekonstruktionsqualität darstellt. In einem kontrollierten Experiment, bei dem alle anderen Pipeline-Komponenten konstant gehalten wurden, führte der Ersatz des generischen Stable-Diffusion-VAE durch MedVAE, einen domänenspezifischen Autoencoder, der auf mehr als 1,6 Millionen medizinischen Bildern vortrainiert wurde, zu einer Verbesserung des PSNR um +2,91 bis +3,29 dB über Knie-MRT, Gehirn-MRT und Röntgenthoraxaufnahmen (n = 1.820; Cohen's d = 1,37 bis 1,86, alle p < 10^{-20}, Wilcoxon-Vorzeichen-Rang-Test). Eine Wavelet-Zerlegung lokalisiert den Vorteil in den höchsten räumlichen Frequenzbändern, die anatomisch relevante Feinstrukturen kodieren. Ablationstudien über Inferenzpläne, Prädiktionsziele und generative Architekturen hinweg bestätigen, dass die Differenz stabil innerhalb von ±0,15 dB liegt, während die Halluzinationsraten zwischen den Methoden vergleichbar bleiben (Cohen's h < 0,02 über alle Datensätze). Dies stellt klar, dass Rekonstruktionstreue und generative Halluzinationen von unabhängigen Pipeline-Komponenten gesteuert werden. Diese Ergebnisse liefern ein praktisches Screening-Kriterium: Die Rekonstruktionsqualität des Autoencoders, messbar ohne Diffusionstraining, sagt die nachgelagerte SR-Leistung vorher (R² = 0,67), was nahelegt, dass die domänenspezifische VAE-Auswahl der Diffusionsarchitektursuche vorausgehen sollte. Code und trainierte Modellgewichte sind öffentlich verfügbar unter https://github.com/sebasmos/latent-sr.
English
Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.