ZipAR: Versnelling van autoregressieve beeldgeneratie door ruimtelijke nabijheid

Samenvatting

In dit artikel stellen we ZipAR voor, een trainingvrij, plug-and-play parallel decoderingsraamwerk voor het versnellen van auto-regressieve (AR) visuele generatie. De motivatie komt voort uit de observatie dat afbeeldingen lokale structuren vertonen en ruimtelijk verre regio's neigen naar minimale onderlinge afhankelijkheid. Gegeven een gedeeltelijk gedecodeerde set visuele tokens, naast het oorspronkelijke voorspellingsmechanisme voor het volgende token in de rijdimensie, kunnen de tokens die overeenkomen met ruimtelijk aangrenzende regio's in de kolomdimensie parallel worden gedecodeerd, waardoor het "volgende-set voorspelling" paradigma mogelijk wordt. Door meerdere tokens tegelijkertijd te decoderen in een enkele voorwaartse passage, wordt het aantal benodigde voorwaartse passages om een afbeelding te genereren aanzienlijk verminderd, resulterend in een aanzienlijke verbetering in generatie-efficiëntie. Experimenten tonen aan dat ZipAR het aantal model voorwaartse passages kan verminderen met maximaal 91% op het Emu3-Gen model zonder dat er extra hertraining nodig is.

English

In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

ZipAR: Versnelling van autoregressieve beeldgeneratie door ruimtelijke nabijheid

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

Samenvatting

Support