ChatPaper.aiChatPaper

Décodage parallèle sensible à la localité pour une génération d'images autorégressive efficace

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

July 2, 2025
Auteurs: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI

Résumé

Nous présentons le décodage parallèle sensible à la localité (Locality-aware Parallel Decoding, LPD) pour accélérer la génération d’images autorégressive. La génération d’images autorégressive traditionnelle repose sur la prédiction de patchs suivants, un processus limité par la mémoire qui entraîne une latence élevée. Les travaux existants ont tenté de paralléliser la prédiction de patchs suivants en passant à une prédiction multi-patchs pour accélérer le processus, mais n’ont obtenu qu’une parallélisation limitée. Pour atteindre une parallélisation élevée tout en maintenant la qualité de génération, nous introduisons deux techniques clés : (1) la modélisation autorégressive parallélisée flexible, une architecture novatrice qui permet un ordre de génération arbitraire et des degrés de parallélisation variables. Elle utilise des tokens de requête de position apprenables pour guider la génération aux positions cibles tout en assurant une visibilité mutuelle entre les tokens générés simultanément pour un décodage parallèle cohérent. (2) L’ordonnancement de génération sensible à la localité, un planificateur innovant qui forme des groupes pour minimiser les dépendances intra-groupes et maximiser le support contextuel, améliorant ainsi la qualité de génération. Grâce à ces conceptions, nous réduisons les étapes de génération de 256 à 20 (résolution 256×256) et de 1024 à 48 (résolution 512×512) sans compromettre la qualité sur la génération conditionnelle par classe d’ImageNet, tout en obtenant une latence au moins 3,4 fois inférieure à celle des modèles autorégressifs parallélisés précédents.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate autoregressive image generation. Traditional autoregressive image generation relies on next-patch prediction, a memory-bound process that leads to high latency. Existing works have tried to parallelize next-patch prediction by shifting to multi-patch prediction to accelerate the process, but only achieved limited parallelization. To achieve high parallelization while maintaining generation quality, we introduce two key techniques: (1) Flexible Parallelized Autoregressive Modeling, a novel architecture that enables arbitrary generation ordering and degrees of parallelization. It uses learnable position query tokens to guide generation at target positions while ensuring mutual visibility among concurrently generated tokens for consistent parallel decoding. (2) Locality-aware Generation Ordering, a novel schedule that forms groups to minimize intra-group dependencies and maximize contextual support, enhancing generation quality. With these designs, we reduce the generation steps from 256 to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without compromising quality on the ImageNet class-conditional generation, and achieving at least 3.4times lower latency than previous parallelized autoregressive models.
PDF101July 3, 2025