Accelerazione della generazione di testo-immagine auto-regressiva con decodifica speculativa di Jacobi senza addestramento.
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding
October 2, 2024
Autori: Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
cs.AI
Abstract
I modelli auto-regressivi attuali possono generare immagini di alta qualità e ad alta risoluzione, ma richiedono centinaia o addirittura migliaia di passaggi di previsione del token successivo durante l'inferenza, comportando un notevole consumo di tempo. Negli studi esistenti, la decodifica di Jacobi, un algoritmo di decodifica iterativo parallelo, è stato utilizzato per accelerare la generazione auto-regressiva e può essere eseguito senza addestramento. Tuttavia, la decodifica di Jacobi si basa su un criterio deterministico per determinare la convergenza delle iterazioni. Pertanto, funziona per la decodifica greedy ma è incompatibile con la decodifica basata su campionamento, che è cruciale per la qualità visiva e la diversità nella generazione attuale di testo-immagine auto-regressivo. In questo articolo, proponiamo un algoritmo di decodifica parallelo probabilistico senza addestramento, Decodifica Jacobi Speculativa (SJD), per accelerare la generazione auto-regressiva di testo-immagine. Introducendo un criterio di convergenza probabilistico, il nostro SJD accelera l'inferenza della generazione auto-regressiva di testo-immagine mantenendo l'aleatorietà nella decodifica del token basata su campionamento e consentendo al modello di generare immagini diverse. In particolare, SJD facilita il modello a prevedere più token ad ogni passaggio e accetta i token in base al criterio probabilistico, consentendo al modello di generare immagini con meno passaggi rispetto al paradigma convenzionale di previsione del token successivo. Esaminiamo anche le strategie di inizializzazione del token che sfruttano la località spaziale dei dati visivi per migliorare ulteriormente il rapporto di accelerazione in scenari specifici. Conduciamo esperimenti per il nostro SJD proposto su diversi modelli di generazione auto-regressiva di testo-immagine, dimostrando l'efficacia dell'accelerazione del modello senza sacrificare la qualità visiva.
English
The current large auto-regressive models can generate high-quality,
high-resolution images, but these models require hundreds or even thousands of
steps of next-token prediction during inference, resulting in substantial time
consumption. In existing studies, Jacobi decoding, an iterative parallel
decoding algorithm, has been used to accelerate the auto-regressive generation
and can be executed without training. However, the Jacobi decoding relies on a
deterministic criterion to determine the convergence of iterations. Thus, it
works for greedy decoding but is incompatible with sampling-based decoding
which is crucial for visual quality and diversity in the current
auto-regressive text-to-image generation. In this paper, we propose a
training-free probabilistic parallel decoding algorithm, Speculative Jacobi
Decoding (SJD), to accelerate auto-regressive text-to-image generation. By
introducing a probabilistic convergence criterion, our SJD accelerates the
inference of auto-regressive text-to-image generation while maintaining the
randomness in sampling-based token decoding and allowing the model to generate
diverse images. Specifically, SJD facilitates the model to predict multiple
tokens at each step and accepts tokens based on the probabilistic criterion,
enabling the model to generate images with fewer steps than the conventional
next-token-prediction paradigm. We also investigate the token initialization
strategies that leverage the spatial locality of visual data to further improve
the acceleration ratio under specific scenarios. We conduct experiments for our
proposed SJD on multiple auto-regressive text-to-image generation models,
showing the effectiveness of model acceleration without sacrificing the visual
quality.