Decodificación Paralela Consciente de la Localidad para la Generación Eficiente de Imágenes Autoregresivas
Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
July 2, 2025
Autores: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI
Resumen
Presentamos la Decodificación Paralela con Conciencia de Localidad (LPD) para acelerar la generación autoregresiva de imágenes. La generación autoregresiva tradicional de imágenes se basa en la predicción del siguiente parche, un proceso limitado por la memoria que resulta en una alta latencia. Trabajos existentes han intentado paralelizar la predicción del siguiente parche cambiando a la predicción de múltiples parches para acelerar el proceso, pero solo han logrado una paralelización limitada. Para alcanzar una alta paralelización manteniendo la calidad de la generación, introducimos dos técnicas clave: (1) Modelado Autoregresivo Paralelizado Flexible, una arquitectura novedosa que permite un orden de generación arbitrario y grados de paralelización. Utiliza tokens de consulta de posición aprendibles para guiar la generación en posiciones objetivo mientras asegura visibilidad mutua entre tokens generados concurrentemente para una decodificación paralela consistente. (2) Orden de Generación con Conciencia de Localidad, un esquema novedoso que forma grupos para minimizar las dependencias intra-grupo y maximizar el soporte contextual, mejorando la calidad de la generación. Con estos diseños, reducimos los pasos de generación de 256 a 20 (resolución 256x256) y de 1024 a 48 (resolución 512x512) sin comprometer la calidad en la generación condicionada por clases de ImageNet, logrando al menos 3.4 veces menos latencia que los modelos autoregresivos paralelizados anteriores.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate
autoregressive image generation. Traditional autoregressive image generation
relies on next-patch prediction, a memory-bound process that leads to high
latency. Existing works have tried to parallelize next-patch prediction by
shifting to multi-patch prediction to accelerate the process, but only achieved
limited parallelization. To achieve high parallelization while maintaining
generation quality, we introduce two key techniques: (1) Flexible Parallelized
Autoregressive Modeling, a novel architecture that enables arbitrary generation
ordering and degrees of parallelization. It uses learnable position query
tokens to guide generation at target positions while ensuring mutual visibility
among concurrently generated tokens for consistent parallel decoding. (2)
Locality-aware Generation Ordering, a novel schedule that forms groups to
minimize intra-group dependencies and maximize contextual support, enhancing
generation quality. With these designs, we reduce the generation steps from 256
to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without
compromising quality on the ImageNet class-conditional generation, and
achieving at least 3.4times lower latency than previous parallelized
autoregressive models.