ZipAR: Ускорение авторегрессивной генерации изображений через пространственную локальность
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality
December 5, 2024
Авторы: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Аннотация
В данной статье мы предлагаем ZipAR - фреймворк параллельного декодирования, не требующий обучения, для ускорения авторегрессивной (AR) визуальной генерации. Мотивация возникла из наблюдения, что изображения обладают локальными структурами, и пространственно удаленные области обычно имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо оригинальной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, обеспечивая парадигму "предсказания следующего набора". Путем одновременного декодирования нескольких токенов за один проход уменьшается количество проходов, необходимых для генерации изображения, что приводит к существенному повышению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество проходов модели до 91% на модели Emu3-Gen без необходимости дополнительного переобучения.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel
decoding framework for accelerating auto-regressive (AR) visual generation. The
motivation stems from the observation that images exhibit local structures, and
spatially distant regions tend to have minimal interdependence. Given a
partially decoded set of visual tokens, in addition to the original next-token
prediction scheme in the row dimension, the tokens corresponding to spatially
adjacent regions in the column dimension can be decoded in parallel, enabling
the ``next-set prediction'' paradigm. By decoding multiple tokens
simultaneously in a single forward pass, the number of forward passes required
to generate an image is significantly reduced, resulting in a substantial
improvement in generation efficiency. Experiments demonstrate that ZipAR can
reduce the number of model forward passes by up to 91% on the Emu3-Gen model
without requiring any additional retraining.Summary
AI-Generated Summary