Совместное декодирование обеспечивает эффективность визуального авторегрессионного моделирования.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
November 26, 2024
Авторы: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Аннотация
В быстро развивающейся области генерации изображений моделирование Visual Auto-Regressive (VAR) привлекло значительное внимание благодаря своему инновационному подходу к предсказанию следующего уровня. Этот парадигма предлагает существенные улучшения в эффективности, масштабируемости и обобщении без обучающих примеров. Тем не менее, встроенная в модель VAR грубая структура от мелкого к крупному вводит в действие продолжительную последовательность токенов, что приводит к запретительному расходу памяти и вычислительным избыткам. Для решения этих узких мест мы предлагаем Collaborative Decoding (CoDe), новую эффективную стратегию декодирования, разработанную специально для рамок VAR. CoDe опирается на два критических наблюдения: существенно сниженные требования к параметрам на более крупных масштабах и исключительные образцы генерации на разных масштабах. Основываясь на этих идеях, мы разбиваем процесс вывода на многомасштабный процесс на плавное взаимодействие между большой и малой моделями. Большая модель выступает в роли "чертежника", специализируясь на генерации контента низкой частоты на более мелких масштабах, в то время как малая модель выступает в роли "усовершенствователя", сосредотачиваясь исключительно на предсказании деталей высокой частоты на более крупных масштабах. Это взаимодействие обеспечивает замечательную эффективность с минимальным влиянием на качество: CoDe достигает ускорения в 1,7 раза, сокращает использование памяти примерно на 50% и сохраняет качество изображения с незначительным увеличением FID с 1,95 до 1,98. При дальнейшем сокращении шагов черчения CoDe может достичь впечатляющего коэффициента ускорения в 2,9 раза, достигая 41 изображения/с при разрешении 256x256 на одном графическом процессоре NVIDIA 4090, сохраняя при этом похвальное значение FID в 2,27. Код доступен по адресу https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive
(VAR) modeling has garnered considerable attention for its innovative
next-scale prediction approach. This paradigm offers substantial improvements
in efficiency, scalability, and zero-shot generalization. Yet, the inherently
coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to
prohibitive memory consumption and computational redundancies. To address these
bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient
decoding strategy tailored for the VAR framework. CoDe capitalizes on two
critical observations: the substantially reduced parameter demands at larger
scales and the exclusive generation patterns across different scales. Based on
these insights, we partition the multi-scale inference process into a seamless
collaboration between a large model and a small model. The large model serves
as the 'drafter', specializing in generating low-frequency content at smaller
scales, while the smaller model serves as the 'refiner', solely focusing on
predicting high-frequency details at larger scales. This collaboration yields
remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x
speedup, slashes memory usage by around 50%, and preserves image quality with
only a negligible FID increase from 1.95 to 1.98. When drafting steps are
further decreased, CoDe can achieve an impressive 2.9x acceleration ratio,
reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while
preserving a commendable FID of 2.27. The code is available at
https://github.com/czg1225/CoDeSummary
AI-Generated Summary