共同デコーディングは、視覚的な自己回帰モデリングを効率的にします。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
November 26, 2024
著者: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
要旨
画像生成の急速に進化する分野において、Visual Auto-Regressive(VAR)モデリングは革新的な次元予測手法としてかなりの注目を集めています。このパラダイムは、効率性、拡張性、およびゼロショットの汎化において著しい改善をもたらします。しかし、VARの本質的なコースからファインな性質は、長いトークンシーケンスを導入し、メモリ消費と計算上の冗長性を招くことになります。これらのボトルネックに対処するために、我々はCollaborative Decoding(CoDe)を提案します。これは、VARフレームワークに適した新しい効率的なデコーディング戦略です。CoDeは、大規模なスケールでのパラメータ要求の大幅な削減と、異なるスケール間での排他的な生成パターンに基づいています。これらの洞察に基づき、マルチスケール推論プロセスを大規模なモデルと小規模なモデルの間でシームレスに協力するように分割します。大規模なモデルは、小規模なスケールで低周波数コンテンツを生成することに特化した「起案者」として機能し、一方、小規模なモデルは、大規模なスケールで高周波数の詳細を予測することに専念する「磨き上げ者」として機能します。この協力により、CoDeは驚異的な効率を実現し、品質にほとんど影響を与えません。CoDeは1.7倍のスピードアップを達成し、メモリ使用量を約50%削減し、画像品質を1.95から1.98にわずかなFID増加で維持します。起案ステップがさらに減少すると、CoDeは印象的な2.9倍の加速比を達成し、NVIDIA 4090 GPU1枚で256x256解像度で41枚/sに到達し、品質のFIDを2.27で維持します。コードはhttps://github.com/czg1225/CoDe で入手可能です。
English
In the rapidly advancing field of image generation, Visual Auto-Regressive
(VAR) modeling has garnered considerable attention for its innovative
next-scale prediction approach. This paradigm offers substantial improvements
in efficiency, scalability, and zero-shot generalization. Yet, the inherently
coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to
prohibitive memory consumption and computational redundancies. To address these
bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient
decoding strategy tailored for the VAR framework. CoDe capitalizes on two
critical observations: the substantially reduced parameter demands at larger
scales and the exclusive generation patterns across different scales. Based on
these insights, we partition the multi-scale inference process into a seamless
collaboration between a large model and a small model. The large model serves
as the 'drafter', specializing in generating low-frequency content at smaller
scales, while the smaller model serves as the 'refiner', solely focusing on
predicting high-frequency details at larger scales. This collaboration yields
remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x
speedup, slashes memory usage by around 50%, and preserves image quality with
only a negligible FID increase from 1.95 to 1.98. When drafting steps are
further decreased, CoDe can achieve an impressive 2.9x acceleration ratio,
reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while
preserving a commendable FID of 2.27. The code is available at
https://github.com/czg1225/CoDeSummary
AI-Generated Summary