Décodage spéculatif par débruiteur Jacobi pour accélérer la génération autoregressive texte-image
Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
October 10, 2025
papers.authors: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI
papers.abstract
En tant que nouveau paradigme de génération de contenu visuel, les modèles autoregressifs de texte-à-image souffrent d'une inférence lente en raison de leur processus séquentiel de décodage token par token, nécessitant souvent des milliers de passes avant pour générer une seule image. Pour remédier à cette inefficacité, nous proposons le Spéculatif Jacobi-Denoising Decoding (SJD2), un cadre qui intègre le processus de débruitage dans les itérations de Jacobi pour permettre une génération parallèle de tokens dans les modèles autoregressifs. Notre méthode introduit un paradigme de prédiction de tokens propres suivants qui permet aux modèles autoregressifs pré-entraînés d'accepter des embeddings de tokens perturbés par du bruit et de prédire les tokens propres suivants via un ajustement fin à faible coût. Ce paradigme de débruitage guide le modèle vers des trajectoires de Jacobi plus stables. Pendant l'inférence, notre méthode initialise les séquences de tokens avec un bruit gaussien et effectue une prédiction itérative de tokens propres suivants dans l'espace d'embedding. Nous utilisons un critère probabiliste pour vérifier et accepter plusieurs tokens en parallèle, et affinons les tokens non acceptés pour la prochaine itération avec la trajectoire de débruitage. Les expériences montrent que notre méthode peut accélérer la génération en réduisant les passes avant du modèle tout en maintenant la qualité visuelle des images générées.
English
As a new paradigm of visual content generation, autoregressive text-to-image
models suffer from slow inference due to their sequential token-by-token
decoding process, often requiring thousands of model forward passes to generate
a single image. To address this inefficiency, we propose Speculative
Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising
process into Jacobi iterations to enable parallel token generation in
autoregressive models. Our method introduces a next-clean-token prediction
paradigm that enables the pre-trained autoregressive models to accept
noise-perturbed token embeddings and predict the next clean tokens through
low-cost fine-tuning. This denoising paradigm guides the model towards more
stable Jacobi trajectories. During inference, our method initializes token
sequences with Gaussian noise and performs iterative
next-clean-token-prediction in the embedding space. We employ a probabilistic
criterion to verify and accept multiple tokens in parallel, and refine the
unaccepted tokens for the next iteration with the denoising trajectory.
Experiments show that our method can accelerate generation by reducing model
forward passes while maintaining the visual quality of generated images.