ChatPaper.aiChatPaper

ZipAR: Acelerando a Geração de Imagens Autoregressivas por Meio da Localidade Espacial

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

December 5, 2024
Autores: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI

Resumo

Neste artigo, propomos o ZipAR, um framework de decodificação paralela plug-and-play, sem necessidade de treinamento, para acelerar a geração visual auto-regressiva (AR). A motivação deriva da observação de que as imagens exibem estruturas locais, e regiões espacialmente distantes tendem a ter interdependência mínima. Dado um conjunto parcialmente decodificado de tokens visuais, além do esquema original de previsão do próximo token na dimensão da linha, os tokens correspondentes a regiões espacialmente adjacentes na dimensão da coluna podem ser decodificados em paralelo, possibilitando o paradigma de "próxima previsão de conjunto". Ao decodificar vários tokens simultaneamente em uma única passagem direta, o número de passagens diretas necessárias para gerar uma imagem é significativamente reduzido, resultando em uma melhoria substancial na eficiência de geração. Experimentos demonstram que o ZipAR pode reduzir o número de passagens diretas do modelo em até 91% no modelo Emu3-Gen sem exigir nenhum retrabalho adicional.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

Summary

AI-Generated Summary

PDF92December 6, 2024