Sturen van een One-Step Diffusiemodel met een Decoder Rijk aan Getrouwheid voor Snelle Beeldcompressie
Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
August 7, 2025
Auteurs: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI
Samenvatting
Diffusie-gebaseerde beeldcompressie heeft indrukwekkende perceptuele prestaties laten zien. Het lijdt echter aan twee kritieke tekortkomingen: (1) overmatige decodeerlatentie door multi-step sampling, en (2) slechte getrouwheid als gevolg van een te grote afhankelijkheid van generatieve prioriteiten. Om deze problemen aan te pakken, stellen we SODEC voor, een nieuw single-step diffusie beeldcompressiemodel. Wij beargumenteren dat bij beeldcompressie een voldoende informatief latent de multi-step verfijning overbodig maakt. Gebaseerd op dit inzicht maken we gebruik van een vooraf getraind VAE-gebaseerd model om latents met rijke informatie te produceren, en vervangen we het iteratieve denoisingsproces door een single-step decodering. Tegelijkertijd introduceren we, om de getrouwheid te verbeteren, de getrouwheidsbegeleidingsmodule, die uitvoer aanmoedigt die trouw is aan het originele beeld. Bovendien ontwerpen we de rate annealing trainingsstrategie om effectieve training onder extreem lage bitrates mogelijk te maken. Uitgebreide experimenten tonen aan dat SODEC bestaande methoden significant overtreft, met superieure rate-distortion-perceptie prestaties. Bovendien verbetert SODEC, in vergelijking met eerdere diffusie-gebaseerde compressiemodellen, de decodersnelheid met meer dan 20 keer. Code is vrijgegeven op: https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual
performance. However, it suffers from two critical drawbacks: (1) excessive
decoding latency due to multi-step sampling, and (2) poor fidelity resulting
from over-reliance on generative priors. To address these issues, we propose
SODEC, a novel single-step diffusion image compression model. We argue that in
image compression, a sufficiently informative latent renders multi-step
refinement unnecessary. Based on this insight, we leverage a pre-trained
VAE-based model to produce latents with rich information, and replace the
iterative denoising process with a single-step decoding. Meanwhile, to improve
fidelity, we introduce the fidelity guidance module, encouraging output that is
faithful to the original image. Furthermore, we design the rate annealing
training strategy to enable effective training under extremely low bitrates.
Extensive experiments show that SODEC significantly outperforms existing
methods, achieving superior rate-distortion-perception performance. Moreover,
compared to previous diffusion-based compression models, SODEC improves
decoding speed by more than 20times. Code is released at:
https://github.com/zhengchen1999/SODEC.