Autoregressieve beeldgeneratie met gerandomiseerde parallelle decodering
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Auteurs: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Samenvatting
We introduceren ARPG, een nieuw visueel autoregressief model dat gerandomiseerde parallelle generatie mogelijk maakt, en daarmee de inherente beperkingen van conventionele rastervolgorde-benaderingen aanpakt, die de inferentie-efficiëntie en zero-shot generalisatie belemmeren vanwege hun sequentiële, vooraf bepaalde token-generatievolgorde. Onze belangrijkste inzicht is dat effectieve willekeurige-volgorde-modellering expliciete begeleiding vereist voor het bepalen van de positie van het volgende voorspelde token. Hiertoe stellen we een nieuw begeleid decodeerframework voor dat positionele begeleiding ontkoppelt van inhoudsrepresentatie, en deze afzonderlijk codeert als queries en key-value paren. Door deze begeleiding direct te integreren in het causale aandachtmechanisme, maakt onze aanpak volledig willekeurige-volgorde training en generatie mogelijk, waardoor de noodzaak voor bidirectionele aandacht wordt geëlimineerd. Hierdoor generaliseert ARPG gemakkelijk naar zero-shot taken zoals image inpainting, outpainting en resolutie-uitbreiding. Bovendien ondersteunt het parallelle inferentie door het gelijktijdig verwerken van meerdere queries met behulp van een gedeelde KV-cache. Op de ImageNet-1K 256 benchmark behaalt onze aanpak een FID van 1,94 met slechts 64 samplingstappen, wat een meer dan 20-voudige toename in doorvoersnelheid oplevert terwijl het geheugengebruik met meer dan 75% wordt verminderd in vergelijking met representatieve recente autoregressieve modellen van vergelijkbare schaal.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.Summary
AI-Generated Summary