ZipAR: Beschleunigung der autoregressiven Bildgenerierung durch räumliche Lokalität

papers.abstract

In diesem Paper schlagen wir ZipAR vor, ein trainingfreies, Plug-and-Play-Parallel-Decodierungs-Framework zur Beschleunigung der autoregressiven (AR) visuellen Generierung vor. Die Motivation ergibt sich aus der Beobachtung, dass Bilder lokale Strukturen aufweisen und räumlich entfernte Regionen tendenziell eine minimale gegenseitige Abhängigkeit haben. Gegeben eine teilweise decodierte Menge von visuellen Tokens, können neben dem ursprünglichen Vorhersageschema des nächsten Tokens in der Zeilendimension die Tokens, die räumlich benachbarten Regionen in der Spaltendimension entsprechen, parallel decodiert werden, was das Paradigma der "nächsten-Menge-Vorhersage" ermöglicht. Durch gleichzeitiges Decodieren mehrerer Tokens in einem einzigen Vorwärtspass wird die Anzahl der Vorwärtspässe, die zur Generierung eines Bildes erforderlich sind, signifikant reduziert, was zu einer erheblichen Verbesserung der Generierungseffizienz führt. Experimente zeigen, dass ZipAR die Anzahl der Modell-Vorwärtspässe auf dem Emu3-Gen-Modell um bis zu 91% reduzieren kann, ohne dass zusätzliches Neutraining erforderlich ist.

English

In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

ZipAR: Beschleunigung der autoregressiven Bildgenerierung durch räumliche Lokalität

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

papers.abstract

Support