QVGen: De Grens Verleggen van Gekwantiseerde Videogeneratieve Modellen
QVGen: Pushing the Limit of Quantized Video Generative Models
May 16, 2025
Auteurs: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI
Samenvatting
Videodiffusiemodellen (DMs) hebben hoogwaardige videosynthese mogelijk gemaakt. Hun aanzienlijke rekenkundige en geheugeneisen vormen echter serieuze uitdagingen voor implementatie in de praktijk, zelfs op high-end GPU's. Kwantisatie, een veelgebruikte oplossing, heeft opmerkelijke successen geboekt bij het reduceren van kosten voor beeld-DMs, maar de directe toepassing ervan op videodiffusiemodellen blijft ineffectief. In dit artikel presenteren we QVGen, een nieuw kwantisatiebewust trainingsframework (QAT) dat is afgestemd op hoogwaardige en inferentie-efficiënte videodiffusiemodellen onder extreem lage-bit kwantisatie (bijv. 4-bit of lager). We beginnen met een theoretische analyse die aantoont dat het verminderen van de gradiëntnorm essentieel is om convergentie voor QAT te bevorderen. Hiertoe introduceren we hulpmodules (Phi) om grote kwantisatiefouten te verminderen, wat leidt tot aanzienlijk verbeterde convergentie. Om de inferentie-overhead van Phi te elimineren, stellen we een rangvervalstrategie voor die Phi geleidelijk uitschakelt. Specifiek passen we herhaaldelijk singulierewaardedecompositie (SVD) en een voorgestelde ranggebaseerde regularisatie gamma toe om componenten met een lage bijdrage te identificeren en af te bouwen. Deze strategie behoudt de prestaties terwijl de inferentie-overhead wordt geëlimineerd. Uitgebreide experimenten met 4 state-of-the-art (SOTA) videodiffusiemodellen, met parameters van 1,3B tot 14B, tonen aan dat QVGen als eerste een kwaliteit bereikt die vergelijkbaar is met volledige precisie onder 4-bit instellingen. Bovendien presteert het aanzienlijk beter dan bestaande methoden. Zo behaalt onze 3-bit CogVideoX-2B verbeteringen van +25,28 in Dynamische Graad en +8,43 in Scèneconsistentie op VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet,
their substantial computational and memory demands pose serious challenges to
real-world deployment, even on high-end GPUs. As a commonly adopted solution,
quantization has proven notable success in reducing cost for image DMs, while
its direct application to video DMs remains ineffective. In this paper, we
present QVGen, a novel quantization-aware training (QAT) framework tailored for
high-performance and inference-efficient video DMs under extremely low-bit
quantization (e.g., 4-bit or below). We begin with a theoretical analysis
demonstrating that reducing the gradient norm is essential to facilitate
convergence for QAT. To this end, we introduce auxiliary modules (Phi) to
mitigate large quantization errors, leading to significantly enhanced
convergence. To eliminate the inference overhead of Phi, we propose a
rank-decay strategy that progressively eliminates Phi. Specifically, we
repeatedly employ singular value decomposition (SVD) and a proposed rank-based
regularization gamma to identify and decay low-contributing
components. This strategy retains performance while zeroing out inference
overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs,
with parameter sizes ranging from 1.3B sim14B, show that QVGen is the
first to reach full-precision comparable quality under 4-bit settings.
Moreover, it significantly outperforms existing methods. For instance, our
3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and
+8.43 in Scene Consistency on VBench.Summary
AI-Generated Summary