Les représentations latentes spécifiques au domaine améliorent la fidélité de la super-résolution d'images médicales par diffusion

Résumé

Les modèles de diffusion latente pour la super-résolution d'images médicales héritent universellement d'autoencodeurs variationnels conçus pour les photographies naturelles. Nous démontrons que ce choix par défaut, et non l'architecture de diffusion, constitue la contrainte dominante sur la qualité de reconstruction. Dans une expérience contrôlée où tous les autres composants du pipeline sont maintenus fixes, le remplacement de l'autoencodeur variationnel générique de Stable Diffusion par MedVAE, un autoencodeur spécialisé pré-entraîné sur plus de 1,6 million d'images médicales, entraîne une amélioration de +2,91 à +3,29 dB du PSNR sur des IRM du genou, des IRM cérébrales et des radiographies pulmonaires (n = 1 820 ; d de Cohen = 1,37 à 1,86, tous p < 10^{-20}, test des rangs signés de Wilcoxon). La décomposition en ondelettes localise l'avantage dans les bandes de fréquence spatiale les plus fines, qui encodent la structure fine anatomiquement pertinente. Des ablations menées sur les planifications d'inférence, les cibles de prédiction et les architectures génératives confirment que l'écart est stable à plus ou moins 0,15 dB près, tandis que les taux d'hallucination restent comparables entre les méthodes (h de Cohen < 0,02 sur tous les jeux de données), établissant que la fidélité de reconstruction et les hallucinations génératives sont gouvernées par des composants indépendants du pipeline. Ces résultats fournissent un critère de criblage pratique : la qualité de reconstruction de l'autoencodeur, mesurable sans entraînement de diffusion, prédit les performances en aval en super-résolution (R² = 0,67), suggérant que la sélection d'un autoencodeur variationnel spécifique au domaine devrait précéder l'exploration d'architectures de diffusion. Le code et les poids des modèles entraînés sont publiquement disponibles à l'adresse https://github.com/sebasmos/latent-sr.

English

Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.

Les représentations latentes spécifiques au domaine améliorent la fidélité de la super-résolution d'images médicales par diffusion

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

Résumé

Support