ChatPaper.aiChatPaper

ZipAR: Acelerando la Generación de Imágenes Autoregresivas a través de la Localidad Espacial

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

December 5, 2024
Autores: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI

Resumen

En este artículo, proponemos ZipAR, un marco de decodificación paralela sin entrenamiento, listo para usar, para acelerar la generación visual auto-regresiva (AR). La motivación surge de la observación de que las imágenes exhiben estructuras locales y las regiones espacialmente distantes tienden a tener una interdependencia mínima. Dado un conjunto parcialmente decodificado de tokens visuales, además del esquema original de predicción del siguiente token en la dimensión de fila, los tokens correspondientes a regiones espacialmente adyacentes en la dimensión de columna pueden decodificarse en paralelo, permitiendo el paradigma de "predicción del siguiente conjunto". Al decodificar múltiples tokens simultáneamente en un solo pase hacia adelante, se reduce significativamente el número de pases hacia adelante necesarios para generar una imagen, lo que resulta en una mejora sustancial en la eficiencia de generación. Los experimentos demuestran que ZipAR puede reducir el número de pases hacia adelante del modelo hasta en un 91% en el modelo Emu3-Gen sin necesidad de ningún reentrenamiento adicional.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

Summary

AI-Generated Summary

PDF92December 6, 2024