Le décodage collaboratif rend la modélisation auto-régressive visuelle plus efficace.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
November 26, 2024
Auteurs: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Résumé
Dans le domaine en constante évolution de la génération d'images, la modélisation auto-régressive visuelle (VAR) a attiré une attention considérable pour son approche innovante de prédiction à l'échelle suivante. Ce paradigme offre des améliorations substantielles en termes d'efficacité, de scalabilité et de généralisation sans entraînement. Cependant, la nature intrinsèquement grossière à fine de VAR introduit une séquence de jetons prolongée, entraînant une consommation de mémoire prohibitive et des redondances computationnelles. Pour résoudre ces goulots d'étranglement, nous proposons le Décodage Collaboratif (CoDe), une nouvelle stratégie de décodage efficace conçue pour le cadre VAR. CoDe tire parti de deux observations critiques : les demandes de paramètres considérablement réduites aux échelles plus grandes et les schémas de génération exclusifs à travers différentes échelles. Sur la base de ces insights, nous partitionnons le processus d'inférence multi-échelle en une collaboration harmonieuse entre un grand modèle et un petit modèle. Le grand modèle agit en tant que "concepteur", spécialisé dans la génération de contenu à basse fréquence à des échelles plus petites, tandis que le petit modèle agit en tant que "raffineur", se concentrant uniquement sur la prédiction de détails à haute fréquence à des échelles plus grandes. Cette collaboration offre une efficacité remarquable avec un impact minimal sur la qualité : CoDe réalise une accélération de 1,7 fois, réduit l'utilisation de mémoire d'environ 50 %, et préserve la qualité de l'image avec une augmentation FID négligeable de 1,95 à 1,98. Lorsque les étapes de conception sont encore réduites, CoDe peut atteindre un impressionnant ratio d'accélération de 2,9 fois, atteignant 41 images/s à une résolution de 256x256 sur un seul GPU NVIDIA 4090, tout en préservant un FID louable de 2,27. Le code est disponible sur https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive
(VAR) modeling has garnered considerable attention for its innovative
next-scale prediction approach. This paradigm offers substantial improvements
in efficiency, scalability, and zero-shot generalization. Yet, the inherently
coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to
prohibitive memory consumption and computational redundancies. To address these
bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient
decoding strategy tailored for the VAR framework. CoDe capitalizes on two
critical observations: the substantially reduced parameter demands at larger
scales and the exclusive generation patterns across different scales. Based on
these insights, we partition the multi-scale inference process into a seamless
collaboration between a large model and a small model. The large model serves
as the 'drafter', specializing in generating low-frequency content at smaller
scales, while the smaller model serves as the 'refiner', solely focusing on
predicting high-frequency details at larger scales. This collaboration yields
remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x
speedup, slashes memory usage by around 50%, and preserves image quality with
only a negligible FID increase from 1.95 to 1.98. When drafting steps are
further decreased, CoDe can achieve an impressive 2.9x acceleration ratio,
reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while
preserving a commendable FID of 2.27. The code is available at
https://github.com/czg1225/CoDeSummary
AI-Generated Summary