Génération d'images autorégressive avec décodage parallèle randomisé

papers.abstract

Nous présentons ARPG, un nouveau modèle visuel autorégressif qui permet une génération parallèle randomisée, surmontant les limitations inhérentes des approches conventionnelles en ordre raster, qui entravent l'efficacité de l'inférence et la généralisation zero-shot en raison de leur ordre séquentiel et prédéfini de génération des tokens. Notre idée clé est que la modélisation efficace en ordre aléatoire nécessite un guidage explicite pour déterminer la position du prochain token prédit. À cette fin, nous proposons un nouveau cadre de décodage guidé qui découple le guidage positionnel de la représentation du contenu, en les encodant séparément sous forme de requêtes et de paires clé-valeur. En intégrant directement ce guidage dans le mécanisme d'attention causale, notre approche permet un entraînement et une génération en ordre totalement aléatoire, éliminant le besoin d'attention bidirectionnelle. Par conséquent, ARPG se généralise facilement à des tâches zero-shot telles que l'inpainting d'images, l'outpainting et l'expansion de résolution. De plus, il supporte l'inférence parallèle en traitant simultanément plusieurs requêtes à l'aide d'un cache KV partagé. Sur le benchmark ImageNet-1K 256, notre approche atteint un FID de 1,94 avec seulement 64 étapes d'échantillonnage, obtenant une augmentation de plus de 20 fois du débit tout en réduisant la consommation mémoire de plus de 75% par rapport aux modèles autorégressifs récents représentatifs d'une échelle similaire.

English

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

Génération d'images autorégressive avec décodage parallèle randomisé

Autoregressive Image Generation with Randomized Parallel Decoding

papers.abstract

Support