Generación Autoregresiva de Imágenes con Decodificación Paralela Aleatorizada
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Autores: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Resumen
Presentamos ARPG, un novedoso modelo visual autorregresivo que permite la generación paralela aleatoria, abordando las limitaciones inherentes de los enfoques convencionales de orden raster, los cuales obstaculizan la eficiencia de inferencia y la generalización zero-shot debido a su orden secuencial y predefinido de generación de tokens. Nuestra idea clave es que el modelado efectivo en orden aleatorio requiere una guía explícita para determinar la posición del siguiente token predicho. Con este fin, proponemos un novedoso marco de decodificación guiada que desacopla la guía posicional de la representación de contenido, codificándolas por separado como consultas y pares clave-valor. Al incorporar directamente esta guía en el mecanismo de atención causal, nuestro enfoque permite el entrenamiento y generación en orden completamente aleatorio, eliminando la necesidad de atención bidireccional. En consecuencia, ARPG se generaliza fácilmente a tareas zero-shot como la restauración de imágenes, la expansión de bordes y la ampliación de resolución. Además, admite inferencia paralela al procesar múltiples consultas simultáneamente utilizando una caché KV compartida. En el benchmark ImageNet-1K 256, nuestro enfoque alcanza un FID de 1.94 con solo 64 pasos de muestreo, logrando un aumento de más de 20 veces en el rendimiento mientras reduce el consumo de memoria en más del 75% en comparación con modelos autorregresivos recientes representativos de escala similar.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.Summary
AI-Generated Summary