ChatPaper.aiChatPaper

Locality-bewuste parallelle decodering voor efficiënte autoregressieve beeldgeneratie

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

July 2, 2025
Auteurs: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI

Samenvatting

We presenteren Locality-aware Parallel Decoding (LPD) om autoregressieve beeldgeneratie te versnellen. Traditionele autoregressieve beeldgeneratie is gebaseerd op next-patch voorspelling, een geheugengebonden proces dat tot hoge latentie leidt. Bestaande werken hebben geprobeerd next-patch voorspelling te paralleliseren door over te schakelen naar multi-patch voorspelling om het proces te versnellen, maar hebben slechts beperkte parallelisatie bereikt. Om hoge parallelisatie te bereiken zonder in te leveren op generatiekwaliteit, introduceren we twee belangrijke technieken: (1) Flexible Parallelized Autoregressive Modeling, een nieuwe architectuur die willekeurige generatievolgorde en mate van parallelisatie mogelijk maakt. Het gebruikt leerbare positie-querytokens om generatie op doelposities te begeleiden, terwijl het onderlinge zichtbaarheid tussen gelijktijdig gegenereerde tokens waarborgt voor consistente parallelle decodering. (2) Locality-aware Generation Ordering, een nieuwe planning die groepen vormt om afhankelijkheden binnen de groep te minimaliseren en contextuele ondersteuning te maximaliseren, wat de generatiekwaliteit verbetert. Met deze ontwerpen reduceren we de generatiestappen van 256 naar 20 (256x256 res.) en van 1024 naar 48 (512x512 res.) zonder in te leveren op kwaliteit bij ImageNet class-conditional generatie, en bereiken we ten minste 3,4 keer lagere latentie dan eerdere geparalleliseerde autoregressieve modellen.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate autoregressive image generation. Traditional autoregressive image generation relies on next-patch prediction, a memory-bound process that leads to high latency. Existing works have tried to parallelize next-patch prediction by shifting to multi-patch prediction to accelerate the process, but only achieved limited parallelization. To achieve high parallelization while maintaining generation quality, we introduce two key techniques: (1) Flexible Parallelized Autoregressive Modeling, a novel architecture that enables arbitrary generation ordering and degrees of parallelization. It uses learnable position query tokens to guide generation at target positions while ensuring mutual visibility among concurrently generated tokens for consistent parallel decoding. (2) Locality-aware Generation Ordering, a novel schedule that forms groups to minimize intra-group dependencies and maximize contextual support, enhancing generation quality. With these designs, we reduce the generation steps from 256 to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without compromising quality on the ImageNet class-conditional generation, and achieving at least 3.4times lower latency than previous parallelized autoregressive models.
PDF171July 3, 2025