ChatPaper.aiChatPaper

Decodificación Paralela Consciente de la Localidad para la Generación Eficiente de Imágenes Autoregresivas

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

July 2, 2025
Autores: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI

Resumen

Presentamos la Decodificación Paralela con Conciencia de Localidad (LPD) para acelerar la generación autoregresiva de imágenes. La generación autoregresiva tradicional de imágenes se basa en la predicción del siguiente parche, un proceso limitado por la memoria que resulta en una alta latencia. Trabajos existentes han intentado paralelizar la predicción del siguiente parche cambiando a la predicción de múltiples parches para acelerar el proceso, pero solo han logrado una paralelización limitada. Para alcanzar una alta paralelización manteniendo la calidad de la generación, introducimos dos técnicas clave: (1) Modelado Autoregresivo Paralelizado Flexible, una arquitectura novedosa que permite un orden de generación arbitrario y grados de paralelización. Utiliza tokens de consulta de posición aprendibles para guiar la generación en posiciones objetivo mientras asegura visibilidad mutua entre tokens generados concurrentemente para una decodificación paralela consistente. (2) Orden de Generación con Conciencia de Localidad, un esquema novedoso que forma grupos para minimizar las dependencias intra-grupo y maximizar el soporte contextual, mejorando la calidad de la generación. Con estos diseños, reducimos los pasos de generación de 256 a 20 (resolución 256x256) y de 1024 a 48 (resolución 512x512) sin comprometer la calidad en la generación condicionada por clases de ImageNet, logrando al menos 3.4 veces menos latencia que los modelos autoregresivos paralelizados anteriores.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate autoregressive image generation. Traditional autoregressive image generation relies on next-patch prediction, a memory-bound process that leads to high latency. Existing works have tried to parallelize next-patch prediction by shifting to multi-patch prediction to accelerate the process, but only achieved limited parallelization. To achieve high parallelization while maintaining generation quality, we introduce two key techniques: (1) Flexible Parallelized Autoregressive Modeling, a novel architecture that enables arbitrary generation ordering and degrees of parallelization. It uses learnable position query tokens to guide generation at target positions while ensuring mutual visibility among concurrently generated tokens for consistent parallel decoding. (2) Locality-aware Generation Ordering, a novel schedule that forms groups to minimize intra-group dependencies and maximize contextual support, enhancing generation quality. With these designs, we reduce the generation steps from 256 to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without compromising quality on the ImageNet class-conditional generation, and achieving at least 3.4times lower latency than previous parallelized autoregressive models.
PDF101July 3, 2025