Dirigiendo un Modelo de Difusión de Un Paso con un Decodificador Rico en Fidelidad para Compresión Rápida de Imágenes
Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
August 7, 2025
Autores: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI
Resumen
La compresión de imágenes basada en difusión ha demostrado un rendimiento perceptual impresionante. Sin embargo, presenta dos inconvenientes críticos: (1) una latencia de decodificación excesiva debido al muestreo en múltiples pasos, y (2) una fidelidad deficiente resultante de una dependencia excesiva en los priors generativos. Para abordar estos problemas, proponemos SODEC, un novedoso modelo de compresión de imágenes de difusión en un solo paso. Argumentamos que, en la compresión de imágenes, un latente suficientemente informativo hace innecesario el refinamiento en múltiples pasos. Basándonos en esta idea, aprovechamos un modelo preentrenado basado en VAE para producir latentes ricos en información y reemplazamos el proceso iterativo de eliminación de ruido con una decodificación en un solo paso. Al mismo tiempo, para mejorar la fidelidad, introducimos el módulo de guía de fidelidad, fomentando una salida que sea fiel a la imagen original. Además, diseñamos la estrategia de entrenamiento de reducción de tasa para permitir un entrenamiento efectivo bajo tasas de bits extremadamente bajas. Experimentos exhaustivos muestran que SODEC supera significativamente a los métodos existentes, logrando un rendimiento superior en la relación tasa-distorsión-percepción. Además, en comparación con los modelos de compresión basados en difusión anteriores, SODEC mejora la velocidad de decodificación en más de 20 veces. El código está disponible en: https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual
performance. However, it suffers from two critical drawbacks: (1) excessive
decoding latency due to multi-step sampling, and (2) poor fidelity resulting
from over-reliance on generative priors. To address these issues, we propose
SODEC, a novel single-step diffusion image compression model. We argue that in
image compression, a sufficiently informative latent renders multi-step
refinement unnecessary. Based on this insight, we leverage a pre-trained
VAE-based model to produce latents with rich information, and replace the
iterative denoising process with a single-step decoding. Meanwhile, to improve
fidelity, we introduce the fidelity guidance module, encouraging output that is
faithful to the original image. Furthermore, we design the rate annealing
training strategy to enable effective training under extremely low bitrates.
Extensive experiments show that SODEC significantly outperforms existing
methods, achieving superior rate-distortion-perception performance. Moreover,
compared to previous diffusion-based compression models, SODEC improves
decoding speed by more than 20times. Code is released at:
https://github.com/zhengchen1999/SODEC.