ChatPaper.aiChatPaper

Управление одношаговой диффузионной моделью с декодером, обеспечивающим высокую точность, для быстрого сжатия изображений

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

August 7, 2025
Авторы: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI

Аннотация

Диффузионное сжатие изображений продемонстрировало впечатляющие результаты с точки зрения восприятия. Однако оно страдает от двух существенных недостатков: (1) чрезмерная задержка декодирования из-за многошаговой выборки и (2) низкая точность, вызванная избыточной зависимостью от генеративных априорных данных. Для решения этих проблем мы предлагаем SODEC — новую модель одношагового диффузионного сжатия изображений. Мы утверждаем, что в сжатии изображений достаточно информативный латентный код делает многошаговое уточнение излишним. Основываясь на этом наблюдении, мы используем предварительно обученную модель на основе VAE для создания латентных кодов с богатой информацией и заменяем итеративный процесс удаления шума одношаговым декодированием. Одновременно, для повышения точности, мы вводим модуль управления точностью, который способствует получению выходных данных, близких к исходному изображению. Кроме того, мы разрабатываем стратегию обучения с постепенным снижением скорости передачи данных, что позволяет эффективно обучать модель при крайне низких битрейтах. Многочисленные эксперименты показывают, что SODEC значительно превосходит существующие методы, достигая превосходного соотношения скорости, искажений и восприятия. Более того, по сравнению с предыдущими диффузионными моделями сжатия, SODEC увеличивает скорость декодирования более чем в 20 раз. Код доступен по адресу: https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20times. Code is released at: https://github.com/zhengchen1999/SODEC.
PDF52August 8, 2025