ZipAR : Accélération de la génération d'images autorégressive par la localité spatiale
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality
December 5, 2024
Auteurs: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Résumé
Dans cet article, nous proposons ZipAR, un cadre de décodage parallèle plug-and-play sans entraînement pour accélérer la génération visuelle auto-régressive (AR). La motivation découle de l'observation selon laquelle les images présentent des structures locales, et que les régions spatialement éloignées ont tendance à avoir un minimum d'interdépendance. Étant donné un ensemble partiellement décodé de jetons visuels, en plus du schéma de prédiction du prochain jeton original dans la dimension de la ligne, les jetons correspondant à des régions spatialement adjacentes dans la dimension de la colonne peuvent être décodés en parallèle, permettant le paradigme de la "prédiction du prochain ensemble". En décodant plusieurs jetons simultanément en une seule passe avant, le nombre de passes avant nécessaires pour générer une image est considérablement réduit, entraînant une amélioration substantielle de l'efficacité de génération. Les expériences démontrent que ZipAR peut réduire le nombre de passes avant du modèle jusqu'à 91% sur le modèle Emu3-Gen sans nécessiter de nouveau retraitement.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel
decoding framework for accelerating auto-regressive (AR) visual generation. The
motivation stems from the observation that images exhibit local structures, and
spatially distant regions tend to have minimal interdependence. Given a
partially decoded set of visual tokens, in addition to the original next-token
prediction scheme in the row dimension, the tokens corresponding to spatially
adjacent regions in the column dimension can be decoded in parallel, enabling
the ``next-set prediction'' paradigm. By decoding multiple tokens
simultaneously in a single forward pass, the number of forward passes required
to generate an image is significantly reduced, resulting in a substantial
improvement in generation efficiency. Experiments demonstrate that ZipAR can
reduce the number of model forward passes by up to 91% on the Emu3-Gen model
without requiring any additional retraining.Summary
AI-Generated Summary