ChatPaper.aiChatPaper

Steuerung eines Ein-Schritt-Diffusionsmodells mit einem detailreichen Decoder für schnelle Bildkompression

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

August 7, 2025
papers.authors: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI

papers.abstract

Diffusionsbasierte Bildkompression hat beeindruckende wahrnehmungsbezogene Leistungen gezeigt. Sie leidet jedoch unter zwei kritischen Nachteilen: (1) übermäßige Dekodierungslatenz aufgrund von mehrstufigem Sampling und (2) schlechte Wiedergabetreue, die auf eine zu starke Abhängigkeit von generativen Priors zurückzuführen ist. Um diese Probleme zu lösen, schlagen wir SODEC vor, ein neuartiges einstufiges Diffusionsmodell zur Bildkompression. Wir argumentieren, dass bei der Bildkompression ein ausreichend informativer Latent-Zustand mehrstufige Verfeinerung überflüssig macht. Basierend auf dieser Erkenntnis nutzen wir ein vortrainiertes VAE-basiertes Modell, um Latents mit reichhaltigen Informationen zu erzeugen, und ersetzen den iterativen Denoising-Prozess durch eine einstufige Dekodierung. Gleichzeitig führen wir das Fidelity-Guidance-Modul ein, um die Wiedergabetreue zu verbessern und Ausgaben zu fördern, die dem Originalbild treu bleiben. Darüber hinaus entwickeln wir die Rate-Annealing-Trainingsstrategie, um ein effektives Training bei extrem niedrigen Bitraten zu ermöglichen. Umfangreiche Experimente zeigen, dass SODEC bestehende Methoden deutlich übertrifft und eine überlegene Rate-Distortion-Perception-Leistung erzielt. Im Vergleich zu früheren diffusionsbasierten Kompressionsmodellen verbessert SODEC die Dekodierungsgeschwindigkeit um mehr als das 20-fache. Der Code ist verfügbar unter: https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20times. Code is released at: https://github.com/zhengchen1999/SODEC.
PDF52August 8, 2025