Sturen van een One-Step Diffusiemodel met een Decoder Rijk aan Getrouwheid voor Snelle Beeldcompressie

Samenvatting

Diffusie-gebaseerde beeldcompressie heeft indrukwekkende perceptuele prestaties laten zien. Het lijdt echter aan twee kritieke tekortkomingen: (1) overmatige decodeerlatentie door multi-step sampling, en (2) slechte getrouwheid als gevolg van een te grote afhankelijkheid van generatieve prioriteiten. Om deze problemen aan te pakken, stellen we SODEC voor, een nieuw single-step diffusie beeldcompressiemodel. Wij beargumenteren dat bij beeldcompressie een voldoende informatief latent de multi-step verfijning overbodig maakt. Gebaseerd op dit inzicht maken we gebruik van een vooraf getraind VAE-gebaseerd model om latents met rijke informatie te produceren, en vervangen we het iteratieve denoisingsproces door een single-step decodering. Tegelijkertijd introduceren we, om de getrouwheid te verbeteren, de getrouwheidsbegeleidingsmodule, die uitvoer aanmoedigt die trouw is aan het originele beeld. Bovendien ontwerpen we de rate annealing trainingsstrategie om effectieve training onder extreem lage bitrates mogelijk te maken. Uitgebreide experimenten tonen aan dat SODEC bestaande methoden significant overtreft, met superieure rate-distortion-perceptie prestaties. Bovendien verbetert SODEC, in vergelijking met eerdere diffusie-gebaseerde compressiemodellen, de decodersnelheid met meer dan 20 keer. Code is vrijgegeven op: https://github.com/zhengchen1999/SODEC.

English

Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20times. Code is released at: https://github.com/zhengchen1999/SODEC.

Sturen van een One-Step Diffusiemodel met een Decoder Rijk aan Getrouwheid voor Snelle Beeldcompressie

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

Samenvatting

Support