ZipAR: Acelerando a Geração de Imagens Autoregressivas por Meio da Localidade Espacial
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality
December 5, 2024
Autores: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Resumo
Neste artigo, propomos o ZipAR, um framework de decodificação paralela plug-and-play, sem necessidade de treinamento, para acelerar a geração visual auto-regressiva (AR). A motivação deriva da observação de que as imagens exibem estruturas locais, e regiões espacialmente distantes tendem a ter interdependência mínima. Dado um conjunto parcialmente decodificado de tokens visuais, além do esquema original de previsão do próximo token na dimensão da linha, os tokens correspondentes a regiões espacialmente adjacentes na dimensão da coluna podem ser decodificados em paralelo, possibilitando o paradigma de "próxima previsão de conjunto". Ao decodificar vários tokens simultaneamente em uma única passagem direta, o número de passagens diretas necessárias para gerar uma imagem é significativamente reduzido, resultando em uma melhoria substancial na eficiência de geração. Experimentos demonstram que o ZipAR pode reduzir o número de passagens diretas do modelo em até 91% no modelo Emu3-Gen sem exigir nenhum retrabalho adicional.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel
decoding framework for accelerating auto-regressive (AR) visual generation. The
motivation stems from the observation that images exhibit local structures, and
spatially distant regions tend to have minimal interdependence. Given a
partially decoded set of visual tokens, in addition to the original next-token
prediction scheme in the row dimension, the tokens corresponding to spatially
adjacent regions in the column dimension can be decoded in parallel, enabling
the ``next-set prediction'' paradigm. By decoding multiple tokens
simultaneously in a single forward pass, the number of forward passes required
to generate an image is significantly reduced, resulting in a substantial
improvement in generation efficiency. Experiments demonstrate that ZipAR can
reduce the number of model forward passes by up to 91% on the Emu3-Gen model
without requiring any additional retraining.Summary
AI-Generated Summary