Le Rappresentazioni Latenti Specifiche per Dominio Migliorano la Fedeltà della Super-Risoluzione di Immagini Mediche Basata su Diffusione
Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution
April 14, 2026
Autori: Sebastian Cajas, Ashaba Judith, Rahul Gorijavolu, Sahil Kapadia, Hillary Clinton Kasimbazi, Leo Kinyera, Emmanuel Paul Kwesiga, Sri Sri Jaithra Varma Manthena, Luis Filipe Nakayama, Ninsiima Doreen, Leo Anthony Celi
cs.AI
Abstract
I modelli di diffusione latente per la super-risoluzione di immagini mediche ereditano universalmente gli autoencoder variazionali progettati per fotografie naturali. Dimostriamo che questa scelta predefinita, e non l'architettura di diffusione, è il vincolo dominante sulla qualità della ricostruzione. In un esperimento controllato mantenendo fissi tutti gli altri componenti della pipeline, la sostituzione del VAE generico di Stable Diffusion con MedVAE, un autoencoder specifico per il dominio pre-addestrato su oltre 1,6 milioni di immagini mediche, produce un miglioramento del PSNR da +2,91 a +3,29 dB su risonanza magnetica del ginocchio, risonanza magnetica cerebrale e radiografia del torace (n = 1.820; d di Cohen = 1,37-1,86, tutti p < 10^{-20}, test dei ranghi con segno di Wilcoxon). La scomposizione wavelet localizza il vantaggio nelle bande di frequenza spaziale più fini che codificano la struttura fine anatomicamente rilevante. Le ablazioni condite su schemi di inferenza, target di predizione e architetture generative confermano che il divario è stabile entro ±0,15 dB, mentre i tassi di allucinazione rimangono comparabili tra i metodi (h di Cohen < 0,02 su tutti i dataset), stabilendo che la fedeltà di ricostruzione e l'allucinazione generativa sono governate da componenti indipendenti della pipeline. Questi risultati forniscono un criterio pratico di screening: la qualità di ricostruzione dell'autoencoder, misurabile senza l'addestramento della diffusione, predice le prestazioni di SR a valle (R² = 0,67), suggerendo che la selezione del VAE specifico per il dominio dovrebbe precedere la ricerca dell'architettura di diffusione. Il codice e i pesi del modello addestrato sono disponibili pubblicamente all'indirizzo https://github.com/sebasmos/latent-sr.
English
Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.