Pilotage d'un modèle de diffusion en une étape avec un décodeur riche en fidélité pour la compression rapide d'images
Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
August 7, 2025
papers.authors: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI
papers.abstract
La compression d'images basée sur la diffusion a démontré des performances perceptuelles impressionnantes. Cependant, elle souffre de deux inconvénients majeurs : (1) une latence de décodage excessive due à l'échantillonnage multi-étapes, et (2) une fidélité médiocre résultant d'une dépendance excessive aux a priori génératifs. Pour résoudre ces problèmes, nous proposons SODEC, un nouveau modèle de compression d'images par diffusion en une seule étape. Nous soutenons que dans la compression d'images, un latent suffisamment informatif rend inutile le raffinement multi-étapes. Sur la base de cette idée, nous exploitons un modèle pré-entraîné basé sur VAE pour produire des latents riches en informations, et remplaçons le processus itératif de débruitage par un décodage en une seule étape. Par ailleurs, pour améliorer la fidélité, nous introduisons le module de guidage de fidélité, encourageant une sortie fidèle à l'image originale. De plus, nous concevons la stratégie d'entraînement par annélation du taux pour permettre un entraînement efficace à des débits extrêmement faibles. Des expériences approfondies montrent que SODEC surpasse significativement les méthodes existantes, atteignant une performance supérieure en termes de taux-distortion-perception. En outre, par rapport aux modèles de compression basés sur la diffusion précédents, SODEC améliore la vitesse de décodage de plus de 20 fois. Le code est disponible à l'adresse : https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual
performance. However, it suffers from two critical drawbacks: (1) excessive
decoding latency due to multi-step sampling, and (2) poor fidelity resulting
from over-reliance on generative priors. To address these issues, we propose
SODEC, a novel single-step diffusion image compression model. We argue that in
image compression, a sufficiently informative latent renders multi-step
refinement unnecessary. Based on this insight, we leverage a pre-trained
VAE-based model to produce latents with rich information, and replace the
iterative denoising process with a single-step decoding. Meanwhile, to improve
fidelity, we introduce the fidelity guidance module, encouraging output that is
faithful to the original image. Furthermore, we design the rate annealing
training strategy to enable effective training under extremely low bitrates.
Extensive experiments show that SODEC significantly outperforms existing
methods, achieving superior rate-distortion-perception performance. Moreover,
compared to previous diffusion-based compression models, SODEC improves
decoding speed by more than 20times. Code is released at:
https://github.com/zhengchen1999/SODEC.