ZipAR: Versnelling van autoregressieve beeldgeneratie door ruimtelijke nabijheid
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality
December 5, 2024
Auteurs: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Samenvatting
In dit artikel stellen we ZipAR voor, een trainingvrij, plug-and-play parallel decoderingsraamwerk voor het versnellen van auto-regressieve (AR) visuele generatie. De motivatie komt voort uit de observatie dat afbeeldingen lokale structuren vertonen en ruimtelijk verre regio's neigen naar minimale onderlinge afhankelijkheid. Gegeven een gedeeltelijk gedecodeerde set visuele tokens, naast het oorspronkelijke voorspellingsmechanisme voor het volgende token in de rijdimensie, kunnen de tokens die overeenkomen met ruimtelijk aangrenzende regio's in de kolomdimensie parallel worden gedecodeerd, waardoor het "volgende-set voorspelling" paradigma mogelijk wordt. Door meerdere tokens tegelijkertijd te decoderen in een enkele voorwaartse passage, wordt het aantal benodigde voorwaartse passages om een afbeelding te genereren aanzienlijk verminderd, resulterend in een aanzienlijke verbetering in generatie-efficiëntie. Experimenten tonen aan dat ZipAR het aantal model voorwaartse passages kan verminderen met maximaal 91% op het Emu3-Gen model zonder dat er extra hertraining nodig is.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel
decoding framework for accelerating auto-regressive (AR) visual generation. The
motivation stems from the observation that images exhibit local structures, and
spatially distant regions tend to have minimal interdependence. Given a
partially decoded set of visual tokens, in addition to the original next-token
prediction scheme in the row dimension, the tokens corresponding to spatially
adjacent regions in the column dimension can be decoded in parallel, enabling
the ``next-set prediction'' paradigm. By decoding multiple tokens
simultaneously in a single forward pass, the number of forward passes required
to generate an image is significantly reduced, resulting in a substantial
improvement in generation efficiency. Experiments demonstrate that ZipAR can
reduce the number of model forward passes by up to 91% on the Emu3-Gen model
without requiring any additional retraining.