ZipAR: Beschleunigung der autoregressiven Bildgenerierung durch räumliche Lokalität
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality
December 5, 2024
Autoren: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Zusammenfassung
In diesem Paper schlagen wir ZipAR vor, ein trainingfreies, Plug-and-Play-Parallel-Decodierungs-Framework zur Beschleunigung der autoregressiven (AR) visuellen Generierung vor. Die Motivation ergibt sich aus der Beobachtung, dass Bilder lokale Strukturen aufweisen und räumlich entfernte Regionen tendenziell eine minimale gegenseitige Abhängigkeit haben. Gegeben eine teilweise decodierte Menge von visuellen Tokens, können neben dem ursprünglichen Vorhersageschema des nächsten Tokens in der Zeilendimension die Tokens, die räumlich benachbarten Regionen in der Spaltendimension entsprechen, parallel decodiert werden, was das Paradigma der "nächsten-Menge-Vorhersage" ermöglicht. Durch gleichzeitiges Decodieren mehrerer Tokens in einem einzigen Vorwärtspass wird die Anzahl der Vorwärtspässe, die zur Generierung eines Bildes erforderlich sind, signifikant reduziert, was zu einer erheblichen Verbesserung der Generierungseffizienz führt. Experimente zeigen, dass ZipAR die Anzahl der Modell-Vorwärtspässe auf dem Emu3-Gen-Modell um bis zu 91% reduzieren kann, ohne dass zusätzliches Neutraining erforderlich ist.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel
decoding framework for accelerating auto-regressive (AR) visual generation. The
motivation stems from the observation that images exhibit local structures, and
spatially distant regions tend to have minimal interdependence. Given a
partially decoded set of visual tokens, in addition to the original next-token
prediction scheme in the row dimension, the tokens corresponding to spatially
adjacent regions in the column dimension can be decoded in parallel, enabling
the ``next-set prediction'' paradigm. By decoding multiple tokens
simultaneously in a single forward pass, the number of forward passes required
to generate an image is significantly reduced, resulting in a substantial
improvement in generation efficiency. Experiments demonstrate that ZipAR can
reduce the number of model forward passes by up to 91% on the Emu3-Gen model
without requiring any additional retraining.Summary
AI-Generated Summary