Direcionando Modelos de Difusão de Uma Etapa com Decodificador Rico em Fidelidade para Compressão Rápida de Imagens
Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
August 7, 2025
Autores: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI
Resumo
A compressão de imagens baseada em difusão tem demonstrado desempenho perceptual impressionante. No entanto, ela sofre de duas desvantagens críticas: (1) latência excessiva de decodificação devido à amostragem em múltiplos passos, e (2) baixa fidelidade resultante da dependência excessiva de priors generativos. Para resolver esses problemas, propomos o SODEC, um novo modelo de compressão de imagens baseado em difusão de passo único. Argumentamos que, na compressão de imagens, um latente suficientemente informativo torna o refinamento em múltiplos passos desnecessário. Com base nessa percepção, utilizamos um modelo pré-treinado baseado em VAE para produzir latentes ricos em informação e substituímos o processo iterativo de remoção de ruído por uma decodificação de passo único. Paralelamente, para melhorar a fidelidade, introduzimos o módulo de orientação de fidelidade, incentivando uma saída fiel à imagem original. Além disso, projetamos a estratégia de treinamento com taxa de anelamento para permitir um treinamento eficaz sob taxas de bits extremamente baixas. Experimentos extensivos mostram que o SODEC supera significativamente os métodos existentes, alcançando um desempenho superior em taxa-distorção-percepção. Além disso, em comparação com modelos de compressão baseados em difusão anteriores, o SODEC melhora a velocidade de decodificação em mais de 20 vezes. O código está disponível em: https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual
performance. However, it suffers from two critical drawbacks: (1) excessive
decoding latency due to multi-step sampling, and (2) poor fidelity resulting
from over-reliance on generative priors. To address these issues, we propose
SODEC, a novel single-step diffusion image compression model. We argue that in
image compression, a sufficiently informative latent renders multi-step
refinement unnecessary. Based on this insight, we leverage a pre-trained
VAE-based model to produce latents with rich information, and replace the
iterative denoising process with a single-step decoding. Meanwhile, to improve
fidelity, we introduce the fidelity guidance module, encouraging output that is
faithful to the original image. Furthermore, we design the rate annealing
training strategy to enable effective training under extremely low bitrates.
Extensive experiments show that SODEC significantly outperforms existing
methods, achieving superior rate-distortion-perception performance. Moreover,
compared to previous diffusion-based compression models, SODEC improves
decoding speed by more than 20times. Code is released at:
https://github.com/zhengchen1999/SODEC.