ChatPaper.aiChatPaper

QVGen: 量子化ビデオ生成モデルの限界に挑む

QVGen: Pushing the Limit of Quantized Video Generative Models

May 16, 2025
著者: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI

要旨

ビデオ拡散モデル(DMs)は高品質なビデオ合成を可能にしています。しかし、その膨大な計算量とメモリ要求は、ハイエンドGPU上での実世界での展開において深刻な課題を引き起こしています。一般的に採用されている解決策として、量子化は画像DMsのコスト削減において顕著な成功を収めていますが、ビデオDMsへの直接的な適用は効果的ではありません。本論文では、極低ビット量子化(例:4ビット以下)下での高性能かつ推論効率の高いビデオDMsに特化した新しい量子化対応トレーニング(QAT)フレームワークであるQVGenを提案します。まず、QATの収束を促進するために勾配ノルムを低減することが重要であることを理論的に分析します。この目的のために、補助モジュール(Phi)を導入して大きな量子化誤差を軽減し、収束を大幅に向上させます。Phiの推論オーバーヘッドを排除するために、ランク減衰戦略を提案します。具体的には、特異値分解(SVD)と提案されたランクベースの正則化ガンマを繰り返し適用して、寄与の低い成分を特定し、減衰させます。この戦略により、性能を維持しながら推論オーバーヘッドをゼロにします。1.3Bから14Bまでのパラメータサイズを持つ4つの最先端(SOTA)ビデオDMsにわたる広範な実験により、QVGenが4ビット設定下でフル精度に匹敵する品質を初めて達成することが示されました。さらに、既存の手法を大幅に上回ります。例えば、3ビットのCogVideoX-2Bは、VBenchにおいてDynamic Degreeで+25.28、Scene Consistencyで+8.43の改善を達成しました。
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules (Phi) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of Phi, we propose a rank-decay strategy that progressively eliminates Phi. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization gamma to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs, with parameter sizes ranging from 1.3B sim14B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and +8.43 in Scene Consistency on VBench.

Summary

AI-Generated Summary

PDF42May 20, 2025