Exploitation du prior de diffusion pour la super-résolution d'images du monde réel
Exploiting Diffusion Prior for Real-World Image Super-Resolution
May 11, 2023
Auteurs: Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Résumé
Nous présentons une nouvelle approche pour exploiter les connaissances préalables encapsulées dans des modèles de diffusion texte-image pré-entraînés pour la super-résolution (SR) aveugle. Plus précisément, en utilisant notre encodeur temporel, nous pouvons obtenir des résultats de restauration prometteurs sans modifier le modèle de synthèse pré-entraîné, préservant ainsi le prior génératif et minimisant les coûts d'entraînement. Pour remédier à la perte de fidélité causée par la stochasticité inhérente des modèles de diffusion, nous introduisons un module d'enveloppement de caractéristiques contrôlable qui permet aux utilisateurs d'équilibrer qualité et fidélité en ajustant simplement une valeur scalaire pendant le processus d'inférence. De plus, nous développons une stratégie d'échantillonnage par agrégation progressive pour surmonter les contraintes de taille fixe des modèles de diffusion pré-entraînés, permettant une adaptation à des résolutions de toute taille. Une évaluation approfondie de notre méthode à l'aide de benchmarks synthétiques et réels démontre sa supériorité par rapport aux approches actuelles de pointe.
English
We present a novel approach to leverage prior knowledge encapsulated in
pre-trained text-to-image diffusion models for blind super-resolution (SR).
Specifically, by employing our time-aware encoder, we can achieve promising
restoration results without altering the pre-trained synthesis model, thereby
preserving the generative prior and minimizing training cost. To remedy the
loss of fidelity caused by the inherent stochasticity of diffusion models, we
introduce a controllable feature wrapping module that allows users to balance
quality and fidelity by simply adjusting a scalar value during the inference
process. Moreover, we develop a progressive aggregation sampling strategy to
overcome the fixed-size constraints of pre-trained diffusion models, enabling
adaptation to resolutions of any size. A comprehensive evaluation of our method
using both synthetic and real-world benchmarks demonstrates its superiority
over current state-of-the-art approaches.