ChatPaper.aiChatPaper

Decodificación Especulativa Jacobi-Desruido para Acelerar la Generación Autoregresiva de Texto a Imagen

Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

October 10, 2025
Autores: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI

Resumen

Como un nuevo paradigma en la generación de contenido visual, los modelos autoregresivos de texto a imagen sufren de una inferencia lenta debido a su proceso secuencial de decodificación token por token, que a menudo requiere miles de pasos hacia adelante del modelo para generar una sola imagen. Para abordar esta ineficiencia, proponemos el Decodificado Especulativo Jacobi-Desruido (SJD2), un marco que incorpora el proceso de desruido en iteraciones de Jacobi para permitir la generación paralela de tokens en modelos autoregresivos. Nuestro método introduce un paradigma de predicción del siguiente token limpio que permite a los modelos autoregresivos preentrenados aceptar embeddings de tokens perturbados con ruido y predecir los siguientes tokens limpios mediante un ajuste fino de bajo costo. Este paradigma de desruido guía al modelo hacia trayectorias de Jacobi más estables. Durante la inferencia, nuestro método inicializa secuencias de tokens con ruido gaussiano y realiza predicciones iterativas del siguiente token limpio en el espacio de embeddings. Empleamos un criterio probabilístico para verificar y aceptar múltiples tokens en paralelo, y refinamos los tokens no aceptados para la siguiente iteración con la trayectoria de desruido. Los experimentos muestran que nuestro método puede acelerar la generación al reducir los pasos hacia adelante del modelo mientras mantiene la calidad visual de las imágenes generadas.
English
As a new paradigm of visual content generation, autoregressive text-to-image models suffer from slow inference due to their sequential token-by-token decoding process, often requiring thousands of model forward passes to generate a single image. To address this inefficiency, we propose Speculative Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising process into Jacobi iterations to enable parallel token generation in autoregressive models. Our method introduces a next-clean-token prediction paradigm that enables the pre-trained autoregressive models to accept noise-perturbed token embeddings and predict the next clean tokens through low-cost fine-tuning. This denoising paradigm guides the model towards more stable Jacobi trajectories. During inference, our method initializes token sequences with Gaussian noise and performs iterative next-clean-token-prediction in the embedding space. We employ a probabilistic criterion to verify and accept multiple tokens in parallel, and refine the unaccepted tokens for the next iteration with the denoising trajectory. Experiments show that our method can accelerate generation by reducing model forward passes while maintaining the visual quality of generated images.
PDF32October 13, 2025