ZipAR: Ускорение авторегрессивной генерации изображений через пространственную локальность

Аннотация

В данной статье мы предлагаем ZipAR - фреймворк параллельного декодирования, не требующий обучения, для ускорения авторегрессивной (AR) визуальной генерации. Мотивация возникла из наблюдения, что изображения обладают локальными структурами, и пространственно удаленные области обычно имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо оригинальной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, обеспечивая парадигму "предсказания следующего набора". Путем одновременного декодирования нескольких токенов за один проход уменьшается количество проходов, необходимых для генерации изображения, что приводит к существенному повышению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество проходов модели до 91% на модели Emu3-Gen без необходимости дополнительного переобучения.

English

In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

ZipAR: Ускорение авторегрессивной генерации изображений через пространственную локальность

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

Аннотация

Support