Decodificação Especulativa Jacobi-Desnóise para Acelerar a Geração Autoregressiva de Texto para Imagem
Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
October 10, 2025
Autores: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI
Resumo
Como um novo paradigma de geração de conteúdo visual, os modelos autoregressivos de texto para imagem sofrem com inferência lenta devido ao seu processo sequencial de decodificação token por token, frequentemente exigindo milhares de passagens de modelo para gerar uma única imagem. Para abordar essa ineficiência, propomos o Especulativo Jacobi-Denoising Decoding (SJD2), um framework que incorpora o processo de denoising em iterações de Jacobi para permitir a geração paralela de tokens em modelos autoregressivos. Nosso método introduz um paradigma de previsão do próximo token limpo que permite que os modelos autoregressivos pré-treinados aceitem embeddings de tokens perturbados por ruído e prevejam os próximos tokens limpos por meio de ajuste fino de baixo custo. Esse paradigma de denoising guia o modelo em direção a trajetórias de Jacobi mais estáveis. Durante a inferência, nosso método inicializa sequências de tokens com ruído gaussiano e realiza previsões iterativas do próximo token limpo no espaço de embeddings. Empregamos um critério probabilístico para verificar e aceitar múltiplos tokens em paralelo, e refinamos os tokens não aceitos para a próxima iteração com a trajetória de denoising. Experimentos mostram que nosso método pode acelerar a geração ao reduzir as passagens de modelo, mantendo a qualidade visual das imagens geradas.
English
As a new paradigm of visual content generation, autoregressive text-to-image
models suffer from slow inference due to their sequential token-by-token
decoding process, often requiring thousands of model forward passes to generate
a single image. To address this inefficiency, we propose Speculative
Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising
process into Jacobi iterations to enable parallel token generation in
autoregressive models. Our method introduces a next-clean-token prediction
paradigm that enables the pre-trained autoregressive models to accept
noise-perturbed token embeddings and predict the next clean tokens through
low-cost fine-tuning. This denoising paradigm guides the model towards more
stable Jacobi trajectories. During inference, our method initializes token
sequences with Gaussian noise and performs iterative
next-clean-token-prediction in the embedding space. We employ a probabilistic
criterion to verify and accept multiple tokens in parallel, and refine the
unaccepted tokens for the next iteration with the denoising trajectory.
Experiments show that our method can accelerate generation by reducing model
forward passes while maintaining the visual quality of generated images.