Las Representaciones Latentes Específicas del Dominio Mejoran la Fidelidad en la Superresolución de Imágenes Médicas Basada en Difusión

Resumen

Los modelos de difusión latente para la superresolución de imágenes médicas heredan universalmente autoencoders variacionales diseñados para fotografías naturales. Demostramos que esta elección por defecto, y no la arquitectura de difusión, es la restricción dominante en la calidad de la reconstrucción. En un experimento controlado manteniendo todos los demás componentes del pipeline fijos, reemplazar el VAE genérico de Stable Diffusion con MedVAE, un autoencoder específico del dominio preentrenado en más de 1.6 millones de imágenes médicas, produce una mejora de +2.91 a +3.29 dB en PSNR en resonancias magnéticas de rodilla, resonancias magnéticas cerebrales y radiografías de tórax (n = 1,820; d de Cohen = 1.37 a 1.86, todos p < 10^{-20}, prueba de rangos con signo de Wilcoxon). La descomposición wavelet localiza la ventaja en las bandas de frecuencia espacial más finas que codifican la estructura fina anatómicamente relevante. Las ablaciones realizadas en los esquemas de inferencia, los objetivos de predicción y las arquitecturas generativas confirman que la brecha es estable dentro de un margen de ±0.15 dB, mientras que las tasas de alucinación permanecen comparables entre métodos (h de Cohen < 0.02 en todos los conjuntos de datos), estableciendo que la fidelidad de la reconstrucción y la alucinación generativa están gobernadas por componentes independientes del pipeline. Estos resultados proporcionan un criterio de selección práctico: la calidad de reconstrucción del autoencoder, medible sin entrenamiento de difusión, predice el rendimiento de superresolución final (R² = 0.67), lo que sugiere que la selección de un VAE específico del dominio debería preceder a la búsqueda de arquitecturas de difusión. El código y los pesos del modelo entrenado están disponibles públicamente en https://github.com/sebasmos/latent-sr.

English

Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.

Las Representaciones Latentes Específicas del Dominio Mejoran la Fidelidad en la Superresolución de Imágenes Médicas Basada en Difusión

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

Resumen

Support