Dirigiendo un Modelo de Difusión de Un Paso con un Decodificador Rico en Fidelidad para Compresión Rápida de Imágenes

Resumen

La compresión de imágenes basada en difusión ha demostrado un rendimiento perceptual impresionante. Sin embargo, presenta dos inconvenientes críticos: (1) una latencia de decodificación excesiva debido al muestreo en múltiples pasos, y (2) una fidelidad deficiente resultante de una dependencia excesiva en los priors generativos. Para abordar estos problemas, proponemos SODEC, un novedoso modelo de compresión de imágenes de difusión en un solo paso. Argumentamos que, en la compresión de imágenes, un latente suficientemente informativo hace innecesario el refinamiento en múltiples pasos. Basándonos en esta idea, aprovechamos un modelo preentrenado basado en VAE para producir latentes ricos en información y reemplazamos el proceso iterativo de eliminación de ruido con una decodificación en un solo paso. Al mismo tiempo, para mejorar la fidelidad, introducimos el módulo de guía de fidelidad, fomentando una salida que sea fiel a la imagen original. Además, diseñamos la estrategia de entrenamiento de reducción de tasa para permitir un entrenamiento efectivo bajo tasas de bits extremadamente bajas. Experimentos exhaustivos muestran que SODEC supera significativamente a los métodos existentes, logrando un rendimiento superior en la relación tasa-distorsión-percepción. Además, en comparación con los modelos de compresión basados en difusión anteriores, SODEC mejora la velocidad de decodificación en más de 20 veces. El código está disponible en: https://github.com/zhengchen1999/SODEC.

English

Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20times. Code is released at: https://github.com/zhengchen1999/SODEC.

Dirigiendo un Modelo de Difusión de Un Paso con un Decodificador Rico en Fidelidad para Compresión Rápida de Imágenes

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

Resumen

Support