ZipAR : Accélération de la génération d'images autorégressive par la localité spatiale

papers.abstract

Dans cet article, nous proposons ZipAR, un cadre de décodage parallèle plug-and-play sans entraînement pour accélérer la génération visuelle auto-régressive (AR). La motivation découle de l'observation selon laquelle les images présentent des structures locales, et que les régions spatialement éloignées ont tendance à avoir un minimum d'interdépendance. Étant donné un ensemble partiellement décodé de jetons visuels, en plus du schéma de prédiction du prochain jeton original dans la dimension de la ligne, les jetons correspondant à des régions spatialement adjacentes dans la dimension de la colonne peuvent être décodés en parallèle, permettant le paradigme de la "prédiction du prochain ensemble". En décodant plusieurs jetons simultanément en une seule passe avant, le nombre de passes avant nécessaires pour générer une image est considérablement réduit, entraînant une amélioration substantielle de l'efficacité de génération. Les expériences démontrent que ZipAR peut réduire le nombre de passes avant du modèle jusqu'à 91% sur le modèle Emu3-Gen sans nécessiter de nouveau retraitement.

English

In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

ZipAR : Accélération de la génération d'images autorégressive par la localité spatiale

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

papers.abstract

Support