Génération d'images autorégressive avec décodage parallèle randomisé
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Auteurs: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Résumé
Nous présentons ARPG, un nouveau modèle visuel autorégressif qui permet une génération parallèle randomisée, surmontant les limitations inhérentes des approches conventionnelles en ordre raster, qui entravent l'efficacité de l'inférence et la généralisation zero-shot en raison de leur ordre séquentiel et prédéfini de génération des tokens. Notre idée clé est que la modélisation efficace en ordre aléatoire nécessite un guidage explicite pour déterminer la position du prochain token prédit. À cette fin, nous proposons un nouveau cadre de décodage guidé qui découple le guidage positionnel de la représentation du contenu, en les encodant séparément sous forme de requêtes et de paires clé-valeur. En intégrant directement ce guidage dans le mécanisme d'attention causale, notre approche permet un entraînement et une génération en ordre totalement aléatoire, éliminant le besoin d'attention bidirectionnelle. Par conséquent, ARPG se généralise facilement à des tâches zero-shot telles que l'inpainting d'images, l'outpainting et l'expansion de résolution. De plus, il supporte l'inférence parallèle en traitant simultanément plusieurs requêtes à l'aide d'un cache KV partagé. Sur le benchmark ImageNet-1K 256, notre approche atteint un FID de 1,94 avec seulement 64 étapes d'échantillonnage, obtenant une augmentation de plus de 20 fois du débit tout en réduisant la consommation mémoire de plus de 75% par rapport aux modèles autorégressifs récents représentatifs d'une échelle similaire.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.Summary
AI-Generated Summary