Generazione Autoregressiva di Immagini con Decodifica Parallela Randomizzata

Abstract

Presentiamo ARPG, un innovativo modello visivo autoregressivo che abilita la generazione parallela randomizzata, affrontando le limitazioni intrinseche degli approcci convenzionali basati sull'ordine raster, che compromettono l'efficienza dell'inferenza e la generalizzazione zero-shot a causa del loro ordine sequenziale e predefinito di generazione dei token. La nostra intuizione chiave è che una modellizzazione efficace in ordine casuale richiede una guida esplicita per determinare la posizione del prossimo token previsto. A tal fine, proponiamo un nuovo framework di decodifica guidata che disaccoppia la guida posizionale dalla rappresentazione del contenuto, codificandole separatamente come query e coppie chiave-valore. Incorporando direttamente questa guida nel meccanismo di attenzione causale, il nostro approccio consente un addestramento e una generazione completamente in ordine casuale, eliminando la necessità di attenzione bidirezionale. Di conseguenza, ARPG si generalizza facilmente a task zero-shot come l'inpainting, l'outpainting e l'espansione della risoluzione delle immagini. Inoltre, supporta l'inferenza parallela elaborando contemporaneamente più query utilizzando una cache KV condivisa. Sul benchmark ImageNet-1K 256, il nostro approccio raggiunge un FID di 1,94 con soli 64 passaggi di campionamento, ottenendo un aumento di oltre 20 volte nella velocità di elaborazione e riducendo il consumo di memoria di oltre il 75% rispetto ai recenti modelli autoregressivi rappresentativi di scala simile.

English

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

Generazione Autoregressiva di Immagini con Decodifica Parallela Randomizzata

Autoregressive Image Generation with Randomized Parallel Decoding

Abstract

Support