Versnellen van Auto-regressieve Tekst-naar-Afbeelding Generatie met Training-vrije Speculatieve Jacobi Decodering
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding
October 2, 2024
Auteurs: Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
cs.AI
Samenvatting
De huidige grote autoregressieve modellen kunnen hoogwaardige, hoogwaardige afbeeldingen genereren, maar deze modellen vereisen honderden of zelfs duizenden stappen van voorspelling van het volgende token tijdens inferentie, wat resulteert in aanzienlijke tijdconsumptie. In bestaande studies is Jacobi-decodering, een iteratief parallel decoderingsalgoritme, gebruikt om de autoregressieve generatie te versnellen en kan worden uitgevoerd zonder training. Echter, de Jacobi-decodering steunt op een deterministisch criterium om de convergentie van iteraties te bepalen. Daarom werkt het voor greedy-decodering, maar is het niet compatibel met op monsters gebaseerde decodering, wat cruciaal is voor visuele kwaliteit en diversiteit in de huidige autoregressieve tekst-naar-afbeelding generatie. In dit artikel stellen we een trainingsvrij probabilistisch parallel decoderingsalgoritme voor, Speculative Jacobi Decodering (SJD), om de autoregressieve tekst-naar-afbeelding generatie te versnellen. Door een probabilistisch convergentiecriterium te introduceren, versnelt onze SJD de inferentie van autoregressieve tekst-naar-afbeelding generatie terwijl de willekeurigheid in op monsters gebaseerde token-decodering behouden blijft en het model in staat stelt diverse afbeeldingen te genereren. Specifiek vergemakkelijkt SJD het model om meerdere tokens te voorspellen bij elke stap en accepteert tokens op basis van het probabilistische criterium, waardoor het model afbeeldingen kan genereren met minder stappen dan het conventionele paradigma van voorspelling van het volgende token. We onderzoeken ook de token-initialisatiestrategieën die gebruikmaken van de ruimtelijke nabijheid van visuele gegevens om de versnellingsratio verder te verbeteren onder specifieke scenario's. We voeren experimenten uit voor onze voorgestelde SJD op meerdere autoregressieve tekst-naar-afbeelding generatiemodellen, waarbij we de effectiviteit van modelversnelling aantonen zonder afbreuk te doen aan de visuele kwaliteit.
English
The current large auto-regressive models can generate high-quality,
high-resolution images, but these models require hundreds or even thousands of
steps of next-token prediction during inference, resulting in substantial time
consumption. In existing studies, Jacobi decoding, an iterative parallel
decoding algorithm, has been used to accelerate the auto-regressive generation
and can be executed without training. However, the Jacobi decoding relies on a
deterministic criterion to determine the convergence of iterations. Thus, it
works for greedy decoding but is incompatible with sampling-based decoding
which is crucial for visual quality and diversity in the current
auto-regressive text-to-image generation. In this paper, we propose a
training-free probabilistic parallel decoding algorithm, Speculative Jacobi
Decoding (SJD), to accelerate auto-regressive text-to-image generation. By
introducing a probabilistic convergence criterion, our SJD accelerates the
inference of auto-regressive text-to-image generation while maintaining the
randomness in sampling-based token decoding and allowing the model to generate
diverse images. Specifically, SJD facilitates the model to predict multiple
tokens at each step and accepts tokens based on the probabilistic criterion,
enabling the model to generate images with fewer steps than the conventional
next-token-prediction paradigm. We also investigate the token initialization
strategies that leverage the spatial locality of visual data to further improve
the acceleration ratio under specific scenarios. We conduct experiments for our
proposed SJD on multiple auto-regressive text-to-image generation models,
showing the effectiveness of model acceleration without sacrificing the visual
quality.Summary
AI-Generated Summary