Super-résolution d'images à pas arbitraires via inversion de diffusion

Résumé

Cette étude présente une nouvelle technique de super-résolution d'images basée sur l'inversion de la diffusion, visant à exploiter les riches connaissances a priori d'images encapsulées dans de grands modèles de diffusion pré-entraînés pour améliorer les performances de la super-résolution. Nous concevons une stratégie de Prédiction partielle du bruit pour construire un état intermédiaire du modèle de diffusion, qui sert de point d'échantillonnage initial. Au cœur de notre approche se trouve un prédicteur de bruit profond pour estimer les cartes de bruit optimales pour le processus de diffusion en avant. Une fois entraîné, ce prédicteur de bruit peut être utilisé pour initialiser partiellement le processus d'échantillonnage le long de la trajectoire de diffusion, générant le résultat haute résolution souhaité. Comparé aux approches existantes, notre méthode offre un mécanisme d'échantillonnage flexible et efficace qui prend en charge un nombre arbitraire d'étapes d'échantillonnage, allant d'une à cinq. Même avec une seule étape d'échantillonnage, notre méthode démontre des performances supérieures ou comparables aux approches récentes de pointe. Le code et le modèle sont disponibles publiquement sur https://github.com/zsyOAOA/InvSR.

English

This study presents a new image super-resolution (SR) technique based on diffusion inversion, aiming at harnessing the rich image priors encapsulated in large pre-trained diffusion models to improve SR performance. We design a Partial noise Prediction strategy to construct an intermediate state of the diffusion model, which serves as the starting sampling point. Central to our approach is a deep noise predictor to estimate the optimal noise maps for the forward diffusion process. Once trained, this noise predictor can be used to initialize the sampling process partially along the diffusion trajectory, generating the desirable high-resolution result. Compared to existing approaches, our method offers a flexible and efficient sampling mechanism that supports an arbitrary number of sampling steps, ranging from one to five. Even with a single sampling step, our method demonstrates superior or comparable performance to recent state-of-the-art approaches. The code and model are publicly available at https://github.com/zsyOAOA/InvSR.