局所性を考慮した並列デコーディングによる効率的な自己回帰的画像生成
Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
July 2, 2025
著者: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI
要旨
本論文では、自己回帰型画像生成を高速化するためのLocality-aware Parallel Decoding (LPD)を提案する。従来の自己回帰型画像生成は、メモリバウンドなプロセスである次のパッチ予測に依存しており、高いレイテンシを引き起こす。既存の研究では、次のパッチ予測をマルチパッチ予測に移行することで並列化を試み、プロセスの高速化を図ってきたが、限定的な並列化しか達成できなかった。高い並列化を実現しつつ生成品質を維持するために、我々は2つの重要な技術を導入する:(1) Flexible Parallelized Autoregressive Modelingは、任意の生成順序と並列化度を可能にする新しいアーキテクチャである。これは、学習可能な位置クエリトークンを使用してターゲット位置での生成を導きつつ、並列に生成されるトークン間の相互可視性を確保し、一貫した並列デコードを実現する。(2) Locality-aware Generation Orderingは、グループ内の依存関係を最小化し、文脈的サポートを最大化する新しいスケジューリング手法であり、生成品質を向上させる。これらの設計により、ImageNetのクラス条件付き生成において、生成ステップを256×256解像度では256から20に、512×512解像度では1024から48に削減し、品質を損なうことなく、従来の並列化自己回帰モデルと比較して少なくとも3.4倍低いレイテンシを達成した。
English
We present Locality-aware Parallel Decoding (LPD) to accelerate
autoregressive image generation. Traditional autoregressive image generation
relies on next-patch prediction, a memory-bound process that leads to high
latency. Existing works have tried to parallelize next-patch prediction by
shifting to multi-patch prediction to accelerate the process, but only achieved
limited parallelization. To achieve high parallelization while maintaining
generation quality, we introduce two key techniques: (1) Flexible Parallelized
Autoregressive Modeling, a novel architecture that enables arbitrary generation
ordering and degrees of parallelization. It uses learnable position query
tokens to guide generation at target positions while ensuring mutual visibility
among concurrently generated tokens for consistent parallel decoding. (2)
Locality-aware Generation Ordering, a novel schedule that forms groups to
minimize intra-group dependencies and maximize contextual support, enhancing
generation quality. With these designs, we reduce the generation steps from 256
to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without
compromising quality on the ImageNet class-conditional generation, and
achieving at least 3.4times lower latency than previous parallelized
autoregressive models.