Одношаговая диффузия с остаточным сдвигом для супер-разрешения изображений через дистилляцию
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
March 17, 2025
Авторы: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI
Аннотация
Модели диффузии для супер-разрешения (SR) обеспечивают высококачественные визуальные результаты, но требуют значительных вычислительных затрат. Несмотря на разработку нескольких методов для ускорения SR-моделей на основе диффузии, некоторые из них (например, SinSR) не способны воспроизводить реалистичные детали, в то время как другие (например, OSEDiff) могут генерировать несуществующие структуры. Чтобы преодолеть эти проблемы, мы представляем RSD — новый метод дистилляции для ResShift, одной из ведущих SR-моделей на основе диффузии. Наш метод основан на обучении студенческой сети таким образом, чтобы она генерировала изображения, на которых обученная новая "поддельная" модель ResShift будет совпадать с учительской моделью. RSD обеспечивает восстановление за один шаг и значительно превосходит учительскую модель. Мы показываем, что наш метод дистилляции может превзойти другой метод дистилляции для ResShift — SinSR, делая его сопоставимым с современными методами дистилляции SR на основе диффузии. По сравнению с методами SR, основанными на предварительно обученных моделях текста в изображение, RSD обеспечивает конкурентоспособное воспринимаемое качество, предоставляет изображения с лучшим соответствием деградированным входным изображениям и требует меньше параметров и памяти GPU. Мы предоставляем экспериментальные результаты на различных реальных и синтетических наборах данных, включая RealSR, RealSet65, DRealSR, ImageNet и DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual
results but require expensive computational costs. Despite the development of
several methods to accelerate diffusion-based SR models, some (e.g., SinSR)
fail to produce realistic perceptual details, while others (e.g., OSEDiff) may
hallucinate non-existent structures. To overcome these issues, we present RSD,
a new distillation method for ResShift, one of the top diffusion-based SR
models. Our method is based on training the student network to produce such
images that a new fake ResShift model trained on them will coincide with the
teacher model. RSD achieves single-step restoration and outperforms the teacher
by a large margin. We show that our distillation method can surpass the other
distillation-based method for ResShift - SinSR - making it on par with
state-of-the-art diffusion-based SR distillation methods. Compared to SR
methods based on pre-trained text-to-image models, RSD produces competitive
perceptual quality, provides images with better alignment to degraded input
images, and requires fewer parameters and GPU memory. We provide experimental
results on various real-world and synthetic datasets, including RealSR,
RealSet65, DRealSR, ImageNet, and DIV2K.Summary
AI-Generated Summary