Generazione Autoregressiva di Immagini con Decodifica Parallela Randomizzata
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Autori: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Abstract
Presentiamo ARPG, un innovativo modello visivo autoregressivo che abilita la generazione parallela randomizzata, affrontando le limitazioni intrinseche degli approcci convenzionali basati sull'ordine raster, che compromettono l'efficienza dell'inferenza e la generalizzazione zero-shot a causa del loro ordine sequenziale e predefinito di generazione dei token. La nostra intuizione chiave è che una modellizzazione efficace in ordine casuale richiede una guida esplicita per determinare la posizione del prossimo token previsto. A tal fine, proponiamo un nuovo framework di decodifica guidata che disaccoppia la guida posizionale dalla rappresentazione del contenuto, codificandole separatamente come query e coppie chiave-valore. Incorporando direttamente questa guida nel meccanismo di attenzione causale, il nostro approccio consente un addestramento e una generazione completamente in ordine casuale, eliminando la necessità di attenzione bidirezionale. Di conseguenza, ARPG si generalizza facilmente a task zero-shot come l'inpainting, l'outpainting e l'espansione della risoluzione delle immagini. Inoltre, supporta l'inferenza parallela elaborando contemporaneamente più query utilizzando una cache KV condivisa. Sul benchmark ImageNet-1K 256, il nostro approccio raggiunge un FID di 1,94 con soli 64 passaggi di campionamento, ottenendo un aumento di oltre 20 volte nella velocità di elaborazione e riducendo il consumo di memoria di oltre il 75% rispetto ai recenti modelli autoregressivi rappresentativi di scala simile.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.