Direcionando Modelos de Difusão de Uma Etapa com Decodificador Rico em Fidelidade para Compressão Rápida de Imagens

Resumo

A compressão de imagens baseada em difusão tem demonstrado desempenho perceptual impressionante. No entanto, ela sofre de duas desvantagens críticas: (1) latência excessiva de decodificação devido à amostragem em múltiplos passos, e (2) baixa fidelidade resultante da dependência excessiva de priors generativos. Para resolver esses problemas, propomos o SODEC, um novo modelo de compressão de imagens baseado em difusão de passo único. Argumentamos que, na compressão de imagens, um latente suficientemente informativo torna o refinamento em múltiplos passos desnecessário. Com base nessa percepção, utilizamos um modelo pré-treinado baseado em VAE para produzir latentes ricos em informação e substituímos o processo iterativo de remoção de ruído por uma decodificação de passo único. Paralelamente, para melhorar a fidelidade, introduzimos o módulo de orientação de fidelidade, incentivando uma saída fiel à imagem original. Além disso, projetamos a estratégia de treinamento com taxa de anelamento para permitir um treinamento eficaz sob taxas de bits extremamente baixas. Experimentos extensivos mostram que o SODEC supera significativamente os métodos existentes, alcançando um desempenho superior em taxa-distorção-percepção. Além disso, em comparação com modelos de compressão baseados em difusão anteriores, o SODEC melhora a velocidade de decodificação em mais de 20 vezes. O código está disponível em: https://github.com/zhengchen1999/SODEC.

English

Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20times. Code is released at: https://github.com/zhengchen1999/SODEC.

Direcionando Modelos de Difusão de Uma Etapa com Decodificador Rico em Fidelidade para Compressão Rápida de Imagens

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

Resumo

Support