Spekulatives Jacobi-Entrauschungs-Decoding zur Beschleunigung der autoregressiven Text-zu-Bild-Generierung
Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
October 10, 2025
papers.authors: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI
papers.abstract
Als neues Paradigma der visuellen Inhaltsgenerierung leiden autoregressive Text-zu-Bild-Modelle unter langsamer Inferenz aufgrund ihres sequenziellen Token-für-Token-Decodierungsprozesses, der oft Tausende von Modellvorwärtspässen erfordert, um ein einzelnes Bild zu erzeugen. Um diese Ineffizienz zu beheben, schlagen wir Speculative Jacobi-Denoising Decoding (SJD2) vor, ein Framework, das den Denoising-Prozess in Jacobi-Iterationen integriert, um eine parallele Token-Generierung in autoregressiven Modellen zu ermöglichen. Unsere Methode führt ein Next-Clean-Token-Prediction-Paradigma ein, das es vortrainierten autoregressiven Modellen ermöglicht, rauschgestörte Token-Embeddings zu akzeptieren und die nächsten sauberen Token durch kostengünstiges Fine-Tuning vorherzusagen. Dieses Denoising-Paradigma führt das Modell zu stabileren Jacobi-Trajektorien. Während der Inferenz initialisiert unsere Methode Token-Sequenzen mit Gaußschem Rauschen und führt iterative Next-Clean-Token-Prediction im Embedding-Raum durch. Wir verwenden ein probabilistisches Kriterium, um mehrere Token parallel zu verifizieren und zu akzeptieren, und verfeinern die nicht akzeptierten Token für die nächste Iteration entlang der Denoising-Trajektorie. Experimente zeigen, dass unsere Methode die Generierung beschleunigen kann, indem sie die Anzahl der Modellvorwärtspässe reduziert, während die visuelle Qualität der generierten Bilder erhalten bleibt.
English
As a new paradigm of visual content generation, autoregressive text-to-image
models suffer from slow inference due to their sequential token-by-token
decoding process, often requiring thousands of model forward passes to generate
a single image. To address this inefficiency, we propose Speculative
Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising
process into Jacobi iterations to enable parallel token generation in
autoregressive models. Our method introduces a next-clean-token prediction
paradigm that enables the pre-trained autoregressive models to accept
noise-perturbed token embeddings and predict the next clean tokens through
low-cost fine-tuning. This denoising paradigm guides the model towards more
stable Jacobi trajectories. During inference, our method initializes token
sequences with Gaussian noise and performs iterative
next-clean-token-prediction in the embedding space. We employ a probabilistic
criterion to verify and accept multiple tokens in parallel, and refine the
unaccepted tokens for the next iteration with the denoising trajectory.
Experiments show that our method can accelerate generation by reducing model
forward passes while maintaining the visual quality of generated images.