Autoregressieve beeldgeneratie met gerandomiseerde parallelle decodering

Samenvatting

We introduceren ARPG, een nieuw visueel autoregressief model dat gerandomiseerde parallelle generatie mogelijk maakt, en daarmee de inherente beperkingen van conventionele rastervolgorde-benaderingen aanpakt, die de inferentie-efficiëntie en zero-shot generalisatie belemmeren vanwege hun sequentiële, vooraf bepaalde token-generatievolgorde. Onze belangrijkste inzicht is dat effectieve willekeurige-volgorde-modellering expliciete begeleiding vereist voor het bepalen van de positie van het volgende voorspelde token. Hiertoe stellen we een nieuw begeleid decodeerframework voor dat positionele begeleiding ontkoppelt van inhoudsrepresentatie, en deze afzonderlijk codeert als queries en key-value paren. Door deze begeleiding direct te integreren in het causale aandachtmechanisme, maakt onze aanpak volledig willekeurige-volgorde training en generatie mogelijk, waardoor de noodzaak voor bidirectionele aandacht wordt geëlimineerd. Hierdoor generaliseert ARPG gemakkelijk naar zero-shot taken zoals image inpainting, outpainting en resolutie-uitbreiding. Bovendien ondersteunt het parallelle inferentie door het gelijktijdig verwerken van meerdere queries met behulp van een gedeelde KV-cache. Op de ImageNet-1K 256 benchmark behaalt onze aanpak een FID van 1,94 met slechts 64 samplingstappen, wat een meer dan 20-voudige toename in doorvoersnelheid oplevert terwijl het geheugengebruik met meer dan 75% wordt verminderd in vergelijking met representatieve recente autoregressieve modellen van vergelijkbare schaal.

English

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

Autoregressieve beeldgeneratie met gerandomiseerde parallelle decodering

Autoregressive Image Generation with Randomized Parallel Decoding

Samenvatting

Support