Спекулятивное декодирование с использованием Якоби-шумоподавления для ускорения авторегрессивной генерации текста в изображения
Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
October 10, 2025
Авторы: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI
Аннотация
Как новая парадигма генерации визуального контента, авторегрессионные модели преобразования текста в изображения страдают от медленного вывода из-за их последовательного процесса декодирования токен за токеном, что часто требует тысяч прямых проходов модели для генерации одного изображения. Чтобы устранить эту неэффективность, мы предлагаем Speculative Jacobi-Denoising Decoding (SJD2) — фреймворк, который интегрирует процесс удаления шума в итерации Якоби для обеспечения параллельной генерации токенов в авторегрессионных моделях. Наш метод вводит парадигму предсказания следующего чистого токена, которая позволяет предварительно обученным авторегрессионным моделям принимать зашумленные эмбеддинги токенов и предсказывать следующие чистые токены с помощью низкозатратной тонкой настройки. Эта парадигма удаления шума направляет модель к более стабильным траекториям Якоби. Во время вывода наш метод инициализирует последовательности токенов гауссовским шумом и выполняет итеративное предсказание следующего чистого токена в пространстве эмбеддингов. Мы используем вероятностный критерий для проверки и принятия нескольких токенов параллельно, а также уточняем непринятые токены для следующей итерации с помощью траектории удаления шума. Эксперименты показывают, что наш метод может ускорить генерацию, сокращая количество прямых проходов модели, при этом сохраняя визуальное качество генерируемых изображений.
English
As a new paradigm of visual content generation, autoregressive text-to-image
models suffer from slow inference due to their sequential token-by-token
decoding process, often requiring thousands of model forward passes to generate
a single image. To address this inefficiency, we propose Speculative
Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising
process into Jacobi iterations to enable parallel token generation in
autoregressive models. Our method introduces a next-clean-token prediction
paradigm that enables the pre-trained autoregressive models to accept
noise-perturbed token embeddings and predict the next clean tokens through
low-cost fine-tuning. This denoising paradigm guides the model towards more
stable Jacobi trajectories. During inference, our method initializes token
sequences with Gaussian noise and performs iterative
next-clean-token-prediction in the embedding space. We employ a probabilistic
criterion to verify and accept multiple tokens in parallel, and refine the
unaccepted tokens for the next iteration with the denoising trajectory.
Experiments show that our method can accelerate generation by reducing model
forward passes while maintaining the visual quality of generated images.