Sfruttare il Prior di Diffusione per il Super-Risoluzione di Immagini del Mondo Reale
Exploiting Diffusion Prior for Real-World Image Super-Resolution
May 11, 2023
Autori: Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Abstract
Presentiamo un approccio innovativo per sfruttare la conoscenza pregressa racchiusa nei modelli di diffusione testo-immagine pre-addestrati per la super-risoluzione (SR) cieca. Nello specifico, utilizzando il nostro encoder sensibile al tempo, possiamo ottenere risultati di restauro promettenti senza alterare il modello di sintesi pre-addestrato, preservando così il prior generativo e minimizzando i costi di addestramento. Per rimediare alla perdita di fedeltà causata dall'intrinseca stocasticità dei modelli di diffusione, introduciamo un modulo di wrapping delle feature controllabile che consente agli utenti di bilanciare qualità e fedeltà semplicemente regolando un valore scalare durante il processo di inferenza. Inoltre, sviluppiamo una strategia di campionamento ad aggregazione progressiva per superare i vincoli di dimensione fissa dei modelli di diffusione pre-addestrati, consentendo l'adattamento a risoluzioni di qualsiasi dimensione. Una valutazione completa del nostro metodo utilizzando benchmark sia sintetici che del mondo reale ne dimostra la superiorità rispetto agli approcci attuali all'avanguardia.
English
We present a novel approach to leverage prior knowledge encapsulated in
pre-trained text-to-image diffusion models for blind super-resolution (SR).
Specifically, by employing our time-aware encoder, we can achieve promising
restoration results without altering the pre-trained synthesis model, thereby
preserving the generative prior and minimizing training cost. To remedy the
loss of fidelity caused by the inherent stochasticity of diffusion models, we
introduce a controllable feature wrapping module that allows users to balance
quality and fidelity by simply adjusting a scalar value during the inference
process. Moreover, we develop a progressive aggregation sampling strategy to
overcome the fixed-size constraints of pre-trained diffusion models, enabling
adaptation to resolutions of any size. A comprehensive evaluation of our method
using both synthetic and real-world benchmarks demonstrates its superiority
over current state-of-the-art approaches.