ChatPaper.aiChatPaper

Difusão de Deslocamento Residual em Um Passo para Super-Resolução de Imagens via Destilação

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

March 17, 2025
Autores: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI

Resumo

Modelos de difusão para super-resolução (SR) produzem resultados visuais de alta qualidade, mas exigem custos computacionais elevados. Apesar do desenvolvimento de vários métodos para acelerar modelos de SR baseados em difusão, alguns (por exemplo, SinSR) falham em produzir detalhes perceptuais realistas, enquanto outros (por exemplo, OSEDiff) podem alucinar estruturas inexistentes. Para superar esses problemas, apresentamos RSD, um novo método de destilação para o ResShift, um dos principais modelos de SR baseados em difusão. Nosso método é baseado no treinamento da rede estudante para produzir imagens que, quando usadas para treinar um novo modelo falso de ResShift, resultarão em um modelo que coincide com o modelo professor. O RSD alcança restauração em um único passo e supera o modelo professor por uma grande margem. Mostramos que nosso método de destilação pode superar o outro método de destilação para ResShift - o SinSR - colocando-o em pé de igualdade com os métodos de destilação de SR baseados em difusão mais avançados. Comparado a métodos de SR baseados em modelos pré-treinados de texto para imagem, o RSD produz qualidade perceptual competitiva, fornece imagens com melhor alinhamento às imagens de entrada degradadas e requer menos parâmetros e memória GPU. Fornecemos resultados experimentais em vários conjuntos de dados do mundo real e sintéticos, incluindo RealSR, RealSet65, DRealSR, ImageNet e DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift - SinSR - making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

Summary

AI-Generated Summary

PDF962March 21, 2025