ChatPaper.aiChatPaper

QVGen : Repousser les limites des modèles génératifs de vidéo quantifiés

QVGen: Pushing the Limit of Quantized Video Generative Models

May 16, 2025
Auteurs: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI

Résumé

Les modèles de diffusion vidéo (DMs) ont permis une synthèse vidéo de haute qualité. Cependant, leurs exigences substantielles en termes de calcul et de mémoire posent de sérieux défis pour leur déploiement dans le monde réel, même sur des GPU haut de gamme. En tant que solution couramment adoptée, la quantification a démontré un succès notable dans la réduction des coûts pour les DMs d'images, tandis que son application directe aux DMs vidéo reste inefficace. Dans cet article, nous présentons QVGen, un cadre de formation consciente de la quantification (QAT) novateur, conçu pour des DMs vidéo à haute performance et efficaces en inférence sous une quantification à très faible bit (par exemple, 4 bits ou moins). Nous commençons par une analyse théorique démontrant que la réduction de la norme du gradient est essentielle pour faciliter la convergence pour la QAT. À cette fin, nous introduisons des modules auxiliaires (Phi) pour atténuer les erreurs de quantification importantes, conduisant à une convergence significativement améliorée. Pour éliminer la surcharge d'inférence de Phi, nous proposons une stratégie de décroissance de rang qui élimine progressivement Phi. Plus précisément, nous utilisons de manière répétée la décomposition en valeurs singulières (SVD) et une régularisation basée sur le rang proposée, gamma, pour identifier et décroître les composants à faible contribution. Cette stratégie maintient les performances tout en annulant la surcharge d'inférence. Des expériences approfondies sur 4 DMs vidéo de pointe (SOTA), avec des tailles de paramètres allant de 1,3B à 14B, montrent que QVGen est le premier à atteindre une qualité comparable à la précision complète sous des paramètres de 4 bits. De plus, il surpasse significativement les méthodes existantes. Par exemple, notre CogVideoX-2B à 3 bits réalise des améliorations de +25,28 en Degré Dynamique et +8,43 en Cohérence de Scène sur VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules (Phi) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of Phi, we propose a rank-decay strategy that progressively eliminates Phi. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization gamma to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs, with parameter sizes ranging from 1.3B sim14B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and +8.43 in Scene Consistency on VBench.

Summary

AI-Generated Summary

PDF42May 20, 2025