Локализованное параллельное декодирование для эффективного авторегрессивного генерации изображений
Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
July 2, 2025
Авторы: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI
Аннотация
Мы представляем метод Locality-aware Parallel Decoding (LPD) для ускорения авторегрессивной генерации изображений. Традиционная авторегрессивная генерация изображений основана на предсказании следующего патча, что является процессом, ограниченным памятью, и приводит к высокой задержке. Существующие работы пытались распараллелить предсказание следующего патча, переходя к предсказанию нескольких патчей для ускорения процесса, но достигли лишь ограниченного уровня параллелизации. Для достижения высокой параллелизации при сохранении качества генерации мы вводим две ключевые техники: (1) Гибкое параллелизованное авторегрессивное моделирование — новая архитектура, которая позволяет произвольный порядок генерации и степень параллелизации. Она использует обучаемые токены запросов позиций для управления генерацией на целевых позициях, обеспечивая при этом взаимную видимость между одновременно генерируемыми токенами для согласованного параллельного декодирования. (2) Локализованный порядок генерации — новый подход к планированию, который формирует группы для минимизации зависимостей внутри групп и максимизации контекстной поддержки, улучшая качество генерации. Благодаря этим решениям мы сокращаем количество шагов генерации с 256 до 20 (для разрешения 256×256) и с 1024 до 48 (для разрешения 512×512) без ущерба для качества в задаче условной генерации на ImageNet, достигая как минимум 3.4-кратного снижения задержки по сравнению с предыдущими параллелизованными авторегрессивными моделями.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate
autoregressive image generation. Traditional autoregressive image generation
relies on next-patch prediction, a memory-bound process that leads to high
latency. Existing works have tried to parallelize next-patch prediction by
shifting to multi-patch prediction to accelerate the process, but only achieved
limited parallelization. To achieve high parallelization while maintaining
generation quality, we introduce two key techniques: (1) Flexible Parallelized
Autoregressive Modeling, a novel architecture that enables arbitrary generation
ordering and degrees of parallelization. It uses learnable position query
tokens to guide generation at target positions while ensuring mutual visibility
among concurrently generated tokens for consistent parallel decoding. (2)
Locality-aware Generation Ordering, a novel schedule that forms groups to
minimize intra-group dependencies and maximize contextual support, enhancing
generation quality. With these designs, we reduce the generation steps from 256
to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without
compromising quality on the ImageNet class-conditional generation, and
achieving at least 3.4times lower latency than previous parallelized
autoregressive models.