Nutzung von Diffusions-Prioritäten für die Super-Resolution realer Bilder
Exploiting Diffusion Prior for Real-World Image Super-Resolution
May 11, 2023
Autoren: Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Zusammenfassung
Wir präsentieren einen neuartigen Ansatz, um das in vortrainierten Text-zu-Bild-Diffusionsmodellen enthaltene Vorwissen für blinde Super-Resolution (SR) zu nutzen. Insbesondere ermöglicht unser zeitbewusster Encoder vielversprechende Restaurationsergebnisse, ohne das vortrainierte Synthesemodell zu verändern, wodurch der generative Prior erhalten und die Trainingskosten minimiert werden. Um den durch die inhärente Stochastizität von Diffusionsmodellen verursachten Verlust an Bildtreue zu beheben, führen wir ein steuerbares Feature-Wrapping-Modul ein, das es Benutzern ermöglicht, Qualität und Treue durch einfaches Anpassen eines Skalarwerts während des Inferenzprozesses auszubalancieren. Darüber hinaus entwickeln wir eine progressive Aggregations-Sampling-Strategie, um die festen Größenbeschränkungen vortrainierter Diffusionsmodelle zu überwinden und die Anpassung an beliebige Auflösungen zu ermöglichen. Eine umfassende Evaluierung unserer Methode anhand sowohl synthetischer als auch realer Benchmarks demonstriert ihre Überlegenheit gegenüber aktuellen State-of-the-Art-Ansätzen.
English
We present a novel approach to leverage prior knowledge encapsulated in
pre-trained text-to-image diffusion models for blind super-resolution (SR).
Specifically, by employing our time-aware encoder, we can achieve promising
restoration results without altering the pre-trained synthesis model, thereby
preserving the generative prior and minimizing training cost. To remedy the
loss of fidelity caused by the inherent stochasticity of diffusion models, we
introduce a controllable feature wrapping module that allows users to balance
quality and fidelity by simply adjusting a scalar value during the inference
process. Moreover, we develop a progressive aggregation sampling strategy to
overcome the fixed-size constraints of pre-trained diffusion models, enabling
adaptation to resolutions of any size. A comprehensive evaluation of our method
using both synthetic and real-world benchmarks demonstrates its superiority
over current state-of-the-art approaches.