ChatPaper.aiChatPaper

La decodificación colaborativa hace que el modelado visual auto-regresivo sea eficiente.

Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

November 26, 2024
Autores: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI

Resumen

En el campo de generación de imágenes en constante avance, el modelado Visual Auto-Regressive (VAR) ha captado considerable atención por su innovador enfoque de predicción a la siguiente escala. Este paradigma ofrece mejoras sustanciales en eficiencia, escalabilidad y generalización de cero disparos. Sin embargo, la naturaleza inherentemente de grueso a fino del VAR introduce una secuencia de tokens prolongada, lo que conlleva a un consumo de memoria prohibitivo y redundancias computacionales. Para abordar estos cuellos de botella, proponemos Decodificación Colaborativa (CoDe), una novedosa estrategia de decodificación eficiente diseñada para el marco de VAR. CoDe se basa en dos observaciones críticas: las demandas de parámetros sustancialmente reducidas en escalas más grandes y los patrones exclusivos de generación en diferentes escalas. Con base en estos conocimientos, dividimos el proceso de inferencia multi-escala en una colaboración fluida entre un modelo grande y un modelo pequeño. El modelo grande actúa como el 'diseñador', especializándose en generar contenido de baja frecuencia en escalas más pequeñas, mientras que el modelo más pequeño actúa como el 'perfeccionador', enfocándose únicamente en predecir detalles de alta frecuencia en escalas más grandes. Esta colaboración produce una eficiencia notable con un impacto mínimo en la calidad: CoDe logra una aceleración de 1.7 veces, reduce el uso de memoria en alrededor del 50% y conserva la calidad de imagen con solo un aumento FID insignificante de 1.95 a 1.98. Cuando se disminuyen aún más los pasos de diseño, CoDe puede lograr una impresionante relación de aceleración de 2.9 veces, alcanzando 41 imágenes/s a una resolución de 256x256 en una sola GPU NVIDIA 4090, manteniendo un FID loable de 2.27. El código está disponible en https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive (VAR) modeling has garnered considerable attention for its innovative next-scale prediction approach. This paradigm offers substantial improvements in efficiency, scalability, and zero-shot generalization. Yet, the inherently coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to prohibitive memory consumption and computational redundancies. To address these bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient decoding strategy tailored for the VAR framework. CoDe capitalizes on two critical observations: the substantially reduced parameter demands at larger scales and the exclusive generation patterns across different scales. Based on these insights, we partition the multi-scale inference process into a seamless collaboration between a large model and a small model. The large model serves as the 'drafter', specializing in generating low-frequency content at smaller scales, while the smaller model serves as the 'refiner', solely focusing on predicting high-frequency details at larger scales. This collaboration yields remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x speedup, slashes memory usage by around 50%, and preserves image quality with only a negligible FID increase from 1.95 to 1.98. When drafting steps are further decreased, CoDe can achieve an impressive 2.9x acceleration ratio, reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while preserving a commendable FID of 2.27. The code is available at https://github.com/czg1225/CoDe

Summary

AI-Generated Summary

PDF122November 28, 2024