Diffusion de décalage résiduel en une étape pour la super-résolution d'images via distillation
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
March 17, 2025
Auteurs: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI
Résumé
Les modèles de diffusion pour la super-résolution (SR) produisent des résultats visuels de haute qualité mais nécessitent des coûts de calcul élevés. Malgré le développement de plusieurs méthodes pour accélérer les modèles de SR basés sur la diffusion, certaines (par exemple, SinSR) échouent à produire des détails perceptuels réalistes, tandis que d'autres (par exemple, OSEDiff) peuvent halluciner des structures inexistantes. Pour surmonter ces problèmes, nous présentons RSD, une nouvelle méthode de distillation pour ResShift, l'un des meilleurs modèles de SR basés sur la diffusion. Notre méthode repose sur l'entraînement du réseau étudiant à produire des images telles qu'un nouveau modèle ResShift fictif entraîné sur ces images coïncidera avec le modèle enseignant. RSD permet une restauration en une seule étape et surpasse largement le modèle enseignant. Nous montrons que notre méthode de distillation peut surpasser l'autre méthode de distillation pour ResShift - SinSR - la rendant comparable aux méthodes de distillation de SR basées sur la diffusion de pointe. Par rapport aux méthodes de SR basées sur des modèles pré-entraînés de texte à image, RSD produit une qualité perceptuelle compétitive, fournit des images mieux alignées avec les images d'entrée dégradées, et nécessite moins de paramètres et de mémoire GPU. Nous fournissons des résultats expérimentaux sur divers ensembles de données réels et synthétiques, notamment RealSR, RealSet65, DRealSR, ImageNet et DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual
results but require expensive computational costs. Despite the development of
several methods to accelerate diffusion-based SR models, some (e.g., SinSR)
fail to produce realistic perceptual details, while others (e.g., OSEDiff) may
hallucinate non-existent structures. To overcome these issues, we present RSD,
a new distillation method for ResShift, one of the top diffusion-based SR
models. Our method is based on training the student network to produce such
images that a new fake ResShift model trained on them will coincide with the
teacher model. RSD achieves single-step restoration and outperforms the teacher
by a large margin. We show that our distillation method can surpass the other
distillation-based method for ResShift - SinSR - making it on par with
state-of-the-art diffusion-based SR distillation methods. Compared to SR
methods based on pre-trained text-to-image models, RSD produces competitive
perceptual quality, provides images with better alignment to degraded input
images, and requires fewer parameters and GPU memory. We provide experimental
results on various real-world and synthetic datasets, including RealSR,
RealSet65, DRealSR, ImageNet, and DIV2K.Summary
AI-Generated Summary