Специфичные для домена латентные представления повышают точность медицинской супер-разрешающей диффузионной модели.

Аннотация

Латентные диффузионные модели для повышения разрешения медицинских изображений повсеместно наследуют вариационные автоэнкодеры, разработанные для натуральных фотографий. Мы демонстрируем, что этот выбор по умолчанию, а не архитектура диффузии, является доминирующим ограничением для качества реконструкции. В контролируемом эксперименте, где все остальные компоненты конвейера были зафиксированы, замена универсального VAE из Stable Diffusion на MedVAE — предметно-ориентированный автоэнкодер, предварительно обученный на более чем 1,6 миллионах медицинских изображений, — привела к улучшению PSNR на +2,91... +3,29 дБ для МРТ коленного сустава, МРТ головного мозга и рентгенограмм грудной клетки (n = 1820; d Коэна = 1,37...1,86, все p < 10^–20, критерий знаковых рангов Уилкоксона). Вейвлет-анализ локализует это преимущество в самых высокочастотных полосах пространственных частот, кодирующих анатомически значимую мелкую структуру. Абляционные исследования, варьирующие расписания вывода, целевые функции и генеративные архитектуры, подтверждают, что разрыв стабилен в пределах ±0,15 дБ, в то время как уровень галлюцинаций остается сопоставимым между методами (h Коэна < 0,02 для всех наборов данных). Это устанавливает, что точность реконструкции и генеративные артефакты управляются независимыми компонентами конвейера. Данные результаты предоставляют практический критерий для оценки: качество реконструкции автоэнкодера, измеримое без обучения диффузионной модели, предсказывает итоговое качество повышения разрешения (R² = 0,67), что указывает на целесообразность выбора предметно-ориентированного VAE до поиска оптимальной диффузионной архитектуры. Код и веса обученных моделей находятся в открытом доступе по адресу https://github.com/sebasmos/latent-sr.

English

Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.

Специфичные для домена латентные представления повышают точность медицинской супер-разрешающей диффузионной модели.

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

Аннотация

Support