ChatPaper.aiChatPaper

Decodifica Speculativa Jacobi-Denoiser per Accelerare la Generazione Autoregressiva da Testo a Immagine

Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

October 10, 2025
Autori: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI

Abstract

Come nuovo paradigma per la generazione di contenuti visivi, i modelli autoregressivi text-to-image soffrono di un'inferenza lenta a causa del loro processo di decodifica sequenziale token per token, che spesso richiede migliaia di passaggi in avanti del modello per generare una singola immagine. Per affrontare questa inefficienza, proponiamo lo Speculative Jacobi-Denoising Decoding (SJD2), un framework che incorpora il processo di denoising nelle iterazioni di Jacobi per abilitare la generazione parallela di token nei modelli autoregressivi. Il nostro metodo introduce un paradigma di previsione del prossimo token pulito che consente ai modelli autoregressivi pre-addestrati di accettare embedding di token perturbati dal rumore e prevedere i prossimi token puliti attraverso un fine-tuning a basso costo. Questo paradigma di denoising guida il modello verso traiettorie di Jacobi più stabili. Durante l'inferenza, il nostro metodo inizializza le sequenze di token con rumore gaussiano ed esegue iterativamente la previsione del prossimo token pulito nello spazio degli embedding. Utilizziamo un criterio probabilistico per verificare e accettare più token in parallelo, e perfezioniamo i token non accettati per la prossima iterazione con la traiettoria di denoising. Gli esperimenti dimostrano che il nostro metodo può accelerare la generazione riducendo i passaggi in avanti del modello mantenendo la qualità visiva delle immagini generate.
English
As a new paradigm of visual content generation, autoregressive text-to-image models suffer from slow inference due to their sequential token-by-token decoding process, often requiring thousands of model forward passes to generate a single image. To address this inefficiency, we propose Speculative Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising process into Jacobi iterations to enable parallel token generation in autoregressive models. Our method introduces a next-clean-token prediction paradigm that enables the pre-trained autoregressive models to accept noise-perturbed token embeddings and predict the next clean tokens through low-cost fine-tuning. This denoising paradigm guides the model towards more stable Jacobi trajectories. During inference, our method initializes token sequences with Gaussian noise and performs iterative next-clean-token-prediction in the embedding space. We employ a probabilistic criterion to verify and accept multiple tokens in parallel, and refine the unaccepted tokens for the next iteration with the denoising trajectory. Experiments show that our method can accelerate generation by reducing model forward passes while maintaining the visual quality of generated images.
PDF32October 13, 2025