Использование диффузионного априори для супер-разрешения реальных изображений
Exploiting Diffusion Prior for Real-World Image Super-Resolution
May 11, 2023
Авторы: Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Аннотация
Мы представляем новый подход, который использует предварительные знания, заложенные в предобученных моделях диффузии для генерации изображений из текста, для задачи слепого сверхвысокого разрешения (SR). В частности, с помощью нашего временно-ориентированного кодера мы достигаем впечатляющих результатов восстановления без изменения предобученной модели синтеза, тем самым сохраняя генеративный приоритет и минимизируя затраты на обучение. Для устранения потери точности, вызванной внутренней стохастичностью моделей диффузии, мы вводим управляемый модуль обертывания признаков, который позволяет пользователям балансировать между качеством и точностью, просто регулируя скалярное значение в процессе вывода. Кроме того, мы разрабатываем стратегию прогрессивной агрегации выборки, чтобы преодолеть ограничения по размеру, присущие предобученным моделям диффузии, что позволяет адаптироваться к разрешениям любого размера. Комплексная оценка нашего метода с использованием как синтетических, так и реальных тестовых данных демонстрирует его превосходство над современными передовыми подходами.
English
We present a novel approach to leverage prior knowledge encapsulated in
pre-trained text-to-image diffusion models for blind super-resolution (SR).
Specifically, by employing our time-aware encoder, we can achieve promising
restoration results without altering the pre-trained synthesis model, thereby
preserving the generative prior and minimizing training cost. To remedy the
loss of fidelity caused by the inherent stochasticity of diffusion models, we
introduce a controllable feature wrapping module that allows users to balance
quality and fidelity by simply adjusting a scalar value during the inference
process. Moreover, we develop a progressive aggregation sampling strategy to
overcome the fixed-size constraints of pre-trained diffusion models, enabling
adaptation to resolutions of any size. A comprehensive evaluation of our method
using both synthetic and real-world benchmarks demonstrates its superiority
over current state-of-the-art approaches.