ChatPaper.aiChatPaper

Diffusion de décalage résiduel en une étape pour la super-résolution d'images via distillation

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

March 17, 2025
Auteurs: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI

Résumé

Les modèles de diffusion pour la super-résolution (SR) produisent des résultats visuels de haute qualité mais nécessitent des coûts de calcul élevés. Malgré le développement de plusieurs méthodes pour accélérer les modèles de SR basés sur la diffusion, certaines (par exemple, SinSR) échouent à produire des détails perceptuels réalistes, tandis que d'autres (par exemple, OSEDiff) peuvent halluciner des structures inexistantes. Pour surmonter ces problèmes, nous présentons RSD, une nouvelle méthode de distillation pour ResShift, l'un des meilleurs modèles de SR basés sur la diffusion. Notre méthode repose sur l'entraînement du réseau étudiant à produire des images telles qu'un nouveau modèle ResShift fictif entraîné sur ces images coïncidera avec le modèle enseignant. RSD permet une restauration en une seule étape et surpasse largement le modèle enseignant. Nous montrons que notre méthode de distillation peut surpasser l'autre méthode de distillation pour ResShift - SinSR - la rendant comparable aux méthodes de distillation de SR basées sur la diffusion de pointe. Par rapport aux méthodes de SR basées sur des modèles pré-entraînés de texte à image, RSD produit une qualité perceptuelle compétitive, fournit des images mieux alignées avec les images d'entrée dégradées, et nécessite moins de paramètres et de mémoire GPU. Nous fournissons des résultats expérimentaux sur divers ensembles de données réels et synthétiques, notamment RealSR, RealSet65, DRealSR, ImageNet et DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift - SinSR - making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

Summary

AI-Generated Summary

PDF962March 21, 2025