Geração Autoregressiva de Imagens com Decodificação Paralela Randomizada
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Autores: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Resumo
Apresentamos o ARPG, um novo modelo visual autorregressivo que possibilita a geração paralela randomizada, abordando as limitações inerentes das abordagens convencionais de ordem raster, que prejudicam a eficiência de inferência e a generalização zero-shot devido à sua ordem sequencial e pré-definida de geração de tokens. Nossa principal percepção é que a modelagem eficaz de ordem aleatória requer orientação explícita para determinar a posição do próximo token previsto. Para isso, propomos uma nova estrutura de decodificação guiada que desacopla a orientação posicional da representação de conteúdo, codificando-as separadamente como consultas e pares chave-valor. Ao incorporar diretamente essa orientação no mecanismo de atenção causal, nossa abordagem permite treinamento e geração em ordem totalmente aleatória, eliminando a necessidade de atenção bidirecional. Consequentemente, o ARPG generaliza facilmente para tarefas zero-shot, como preenchimento de imagens, expansão de bordas e aumento de resolução. Além disso, ele suporta inferência paralela ao processar múltiplas consultas simultaneamente usando um cache KV compartilhado. No benchmark ImageNet-1K 256, nossa abordagem atinge um FID de 1,94 com apenas 64 etapas de amostragem, alcançando um aumento de mais de 20 vezes na taxa de processamento enquanto reduz o consumo de memória em mais de 75% em comparação com modelos autorregressivos recentes representativos de escala similar.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.Summary
AI-Generated Summary