Geração Autoregressiva de Imagens com Decodificação Paralela Randomizada

Resumo

Apresentamos o ARPG, um novo modelo visual autorregressivo que possibilita a geração paralela randomizada, abordando as limitações inerentes das abordagens convencionais de ordem raster, que prejudicam a eficiência de inferência e a generalização zero-shot devido à sua ordem sequencial e pré-definida de geração de tokens. Nossa principal percepção é que a modelagem eficaz de ordem aleatória requer orientação explícita para determinar a posição do próximo token previsto. Para isso, propomos uma nova estrutura de decodificação guiada que desacopla a orientação posicional da representação de conteúdo, codificando-as separadamente como consultas e pares chave-valor. Ao incorporar diretamente essa orientação no mecanismo de atenção causal, nossa abordagem permite treinamento e geração em ordem totalmente aleatória, eliminando a necessidade de atenção bidirecional. Consequentemente, o ARPG generaliza facilmente para tarefas zero-shot, como preenchimento de imagens, expansão de bordas e aumento de resolução. Além disso, ele suporta inferência paralela ao processar múltiplas consultas simultaneamente usando um cache KV compartilhado. No benchmark ImageNet-1K 256, nossa abordagem atinge um FID de 1,94 com apenas 64 etapas de amostragem, alcançando um aumento de mais de 20 vezes na taxa de processamento enquanto reduz o consumo de memória em mais de 75% em comparação com modelos autorregressivos recentes representativos de escala similar.

English

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

Geração Autoregressiva de Imagens com Decodificação Paralela Randomizada

Autoregressive Image Generation with Randomized Parallel Decoding

Resumo

Support