Lokalitätsbewusste parallele Dekodierung für effiziente autoregressive Bildgenerierung

papers.abstract

Wir stellen Locality-aware Parallel Decoding (LPD) vor, um die autoregressive Bildgenerierung zu beschleunigen. Traditionelle autoregressive Bildgenerierung basiert auf der Vorhersage des nächsten Patches, einem speichergebundenen Prozess, der zu hoher Latenz führt. Bestehende Arbeiten haben versucht, die Vorhersage des nächsten Patches durch den Wechsel zur Multi-Patch-Vorhersage zu parallelisieren, um den Prozess zu beschleunigen, erreichten jedoch nur eine begrenzte Parallelisierung. Um eine hohe Parallelisierung bei gleichbleibender Generierungsqualität zu erreichen, führen wir zwei Schlüsseltechniken ein: (1) Flexible Parallelized Autoregressive Modeling, eine neuartige Architektur, die beliebige Generierungsreihenfolgen und Parallelisierungsgrade ermöglicht. Sie verwendet lernbare Positionsabfrage-Tokens, um die Generierung an Zielpositionen zu steuern und gleichzeitig die gegenseitige Sichtbarkeit zwischen gleichzeitig generierten Tokens für eine konsistente parallele Dekodierung sicherzustellen. (2) Locality-aware Generation Ordering, ein neuartiger Zeitplan, der Gruppen bildet, um Abhängigkeiten innerhalb der Gruppe zu minimieren und die kontextuelle Unterstützung zu maximieren, wodurch die Generierungsqualität verbessert wird. Mit diesen Entwürfen reduzieren wir die Generierungsschritte von 256 auf 20 (256×256 Auflösung) und von 1024 auf 48 (512×512 Auflösung), ohne die Qualität bei der klassenbedingten Generierung auf ImageNet zu beeinträchtigen, und erreichen dabei eine mindestens 3,4-fach geringere Latenz als bisherige parallelisierte autoregressive Modelle.

English

We present Locality-aware Parallel Decoding (LPD) to accelerate autoregressive image generation. Traditional autoregressive image generation relies on next-patch prediction, a memory-bound process that leads to high latency. Existing works have tried to parallelize next-patch prediction by shifting to multi-patch prediction to accelerate the process, but only achieved limited parallelization. To achieve high parallelization while maintaining generation quality, we introduce two key techniques: (1) Flexible Parallelized Autoregressive Modeling, a novel architecture that enables arbitrary generation ordering and degrees of parallelization. It uses learnable position query tokens to guide generation at target positions while ensuring mutual visibility among concurrently generated tokens for consistent parallel decoding. (2) Locality-aware Generation Ordering, a novel schedule that forms groups to minimize intra-group dependencies and maximize contextual support, enhancing generation quality. With these designs, we reduce the generation steps from 256 to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without compromising quality on the ImageNet class-conditional generation, and achieving at least 3.4times lower latency than previous parallelized autoregressive models.

Lokalitätsbewusste parallele Dekodierung für effiziente autoregressive Bildgenerierung

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

papers.abstract

Support