Одношаговая диффузия с остаточным сдвигом для супер-разрешения изображений через дистилляцию

Аннотация

Модели диффузии для супер-разрешения (SR) обеспечивают высококачественные визуальные результаты, но требуют значительных вычислительных затрат. Несмотря на разработку нескольких методов для ускорения SR-моделей на основе диффузии, некоторые из них (например, SinSR) не способны воспроизводить реалистичные детали, в то время как другие (например, OSEDiff) могут генерировать несуществующие структуры. Чтобы преодолеть эти проблемы, мы представляем RSD — новый метод дистилляции для ResShift, одной из ведущих SR-моделей на основе диффузии. Наш метод основан на обучении студенческой сети таким образом, чтобы она генерировала изображения, на которых обученная новая "поддельная" модель ResShift будет совпадать с учительской моделью. RSD обеспечивает восстановление за один шаг и значительно превосходит учительскую модель. Мы показываем, что наш метод дистилляции может превзойти другой метод дистилляции для ResShift — SinSR, делая его сопоставимым с современными методами дистилляции SR на основе диффузии. По сравнению с методами SR, основанными на предварительно обученных моделях текста в изображение, RSD обеспечивает конкурентоспособное воспринимаемое качество, предоставляет изображения с лучшим соответствием деградированным входным изображениям и требует меньше параметров и памяти GPU. Мы предоставляем экспериментальные результаты на различных реальных и синтетических наборах данных, включая RealSR, RealSet65, DRealSR, ImageNet и DIV2K.

English

Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift - SinSR - making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

Одношаговая диффузия с остаточным сдвигом для супер-разрешения изображений через дистилляцию

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

Аннотация

Support