Speculatieve Jacobi-Denoiser Decodering voor het Versnellen van Autoregressieve Tekst-naar-beeld Generatie
Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
October 10, 2025
Auteurs: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI
Samenvatting
Als een nieuw paradigma voor het genereren van visuele inhoud, lijden autoregressieve tekst-naar-beeldmodellen onder trage inferentie vanwege hun sequentiële token-voor-token decodeerproces, waarbij vaak duizenden modelvoorwaartse passes nodig zijn om een enkele afbeelding te genereren. Om deze inefficiëntie aan te pakken, stellen we Speculative Jacobi-Denoising Decoding (SJD2) voor, een raamwerk dat het denoisingproces integreert in Jacobi-iteraties om parallelle token-generatie in autoregressieve modellen mogelijk te maken. Onze methode introduceert een next-clean-token voorspellingsparadigma dat vooraf getrainde autoregressieve modellen in staat stelt om met ruis verstoorde token-embeddings te accepteren en de volgende schone tokens te voorspellen via kostenefficiënte fine-tuning. Dit denoisingparadigma leidt het model naar stabielere Jacobi-trajecten. Tijdens inferentie initialiseert onze methode tokenreeksen met Gaussiaanse ruis en voert iteratieve next-clean-token-voorspelling uit in de embeddingruimte. We gebruiken een probabilistisch criterium om meerdere tokens parallel te verifiëren en te accepteren, en verfijnen de niet-geaccepteerde tokens voor de volgende iteratie met het denoisingtraject. Experimenten tonen aan dat onze methode de generatie kan versnellen door het aantal modelvoorwaartse passes te verminderen, terwijl de visuele kwaliteit van de gegenereerde afbeeldingen behouden blijft.
English
As a new paradigm of visual content generation, autoregressive text-to-image
models suffer from slow inference due to their sequential token-by-token
decoding process, often requiring thousands of model forward passes to generate
a single image. To address this inefficiency, we propose Speculative
Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising
process into Jacobi iterations to enable parallel token generation in
autoregressive models. Our method introduces a next-clean-token prediction
paradigm that enables the pre-trained autoregressive models to accept
noise-perturbed token embeddings and predict the next clean tokens through
low-cost fine-tuning. This denoising paradigm guides the model towards more
stable Jacobi trajectories. During inference, our method initializes token
sequences with Gaussian noise and performs iterative
next-clean-token-prediction in the embedding space. We employ a probabilistic
criterion to verify and accept multiple tokens in parallel, and refine the
unaccepted tokens for the next iteration with the denoising trajectory.
Experiments show that our method can accelerate generation by reducing model
forward passes while maintaining the visual quality of generated images.