ChatPaper.aiChatPaper

Pilotaggio di un Modello di Diffusione a Singolo Passo con Decodificatore ad Alta Fedeltà per la Compressione Rapida delle Immagini

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

August 7, 2025
Autori: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang
cs.AI

Abstract

La compressione di immagini basata su modelli di diffusione ha dimostrato prestazioni percettive impressionanti. Tuttavia, soffre di due criticità principali: (1) un'eccessiva latenza di decodifica dovuta al campionamento multi-step, e (2) una scarsa fedeltà risultante da un'eccessiva dipendenza da prior generativi. Per affrontare questi problemi, proponiamo SODEC, un innovativo modello di compressione di immagini a diffusione a singolo passo. Sosteniamo che, nella compressione di immagini, un latente sufficientemente informativo rende superfluo il raffinamento multi-step. Basandoci su questa intuizione, sfruttiamo un modello pre-addestrato basato su VAE per produrre latenti ricchi di informazioni, e sostituiamo il processo iterativo di denoising con una decodifica a singolo passo. Nel frattempo, per migliorare la fedeltà, introduciamo il modulo di guida alla fedeltà, che incoraggia un output fedele all'immagine originale. Inoltre, progettiamo la strategia di addestramento con rate annealing per consentire un allenamento efficace a bitrate estremamente bassi. Esperimenti estensivi dimostrano che SODEC supera significativamente i metodi esistenti, raggiungendo prestazioni superiori in termini di rapporto rate-distortion-perception. Inoltre, rispetto ai precedenti modelli di compressione basati su diffusione, SODEC migliora la velocità di decodifica di oltre 20 volte. Il codice è disponibile all'indirizzo: https://github.com/zhengchen1999/SODEC.
English
Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20times. Code is released at: https://github.com/zhengchen1999/SODEC.
PDF52August 8, 2025