QVGen: Die Grenzen quantisierter Video-Generierungsmodelle ausreizen
QVGen: Pushing the Limit of Quantized Video Generative Models
May 16, 2025
Autoren: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI
Zusammenfassung
Video-Diffusionsmodelle (DMs) haben die Synthese hochwertiger Videos ermöglicht. Dennoch stellen ihre erheblichen Rechen- und Speicheranforderungen ernsthafte Herausforderungen für den Einsatz in der Praxis dar, selbst auf High-End-GPUs. Als häufig angewandte Lösung hat sich die Quantisierung bei der Kostensenkung für Bild-DMs als äußerst erfolgreich erwiesen, während ihre direkte Anwendung auf Video-DMs jedoch unwirksam bleibt. In diesem Artikel präsentieren wir QVGen, ein neuartiges Quantization-Aware-Training (QAT)-Framework, das speziell für leistungsstarke und inferenzeffiziente Video-DMs unter extrem niedriger Bit-Quantisierung (z. B. 4-Bit oder darunter) entwickelt wurde. Wir beginnen mit einer theoretischen Analyse, die zeigt, dass die Reduzierung der Gradientennorm entscheidend ist, um die Konvergenz für QAT zu ermöglichen. Zu diesem Zweck führen wir Hilfsmodule (Phi) ein, um große Quantisierungsfehler zu mindern, was zu einer deutlich verbesserten Konvergenz führt. Um den Inferenz-Overhead von Phi zu eliminieren, schlagen wir eine Rang-Zerfallsstrategie vor, die Phi schrittweise entfernt. Konkret verwenden wir wiederholt die Singulärwertzerlegung (SVD) und eine vorgeschlagene rangbasierte Regularisierung Gamma, um gering beitragende Komponenten zu identifizieren und abzubauen. Diese Strategie bewahrt die Leistung, während der Inferenz-Overhead auf Null reduziert wird. Umfangreiche Experimente mit 4 state-of-the-art (SOTA) Video-DMs, deren Parametergrößen von 1,3B bis 14B reichen, zeigen, dass QVGen als erstes eine mit der Vollpräzision vergleichbare Qualität unter 4-Bit-Einstellungen erreicht. Darüber hinaus übertrifft es bestehende Methoden deutlich. Beispielsweise erzielt unser 3-Bit CogVideoX-2B Verbesserungen von +25,28 im Dynamic Degree und +8,43 in der Szenenkonsistenz auf VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet,
their substantial computational and memory demands pose serious challenges to
real-world deployment, even on high-end GPUs. As a commonly adopted solution,
quantization has proven notable success in reducing cost for image DMs, while
its direct application to video DMs remains ineffective. In this paper, we
present QVGen, a novel quantization-aware training (QAT) framework tailored for
high-performance and inference-efficient video DMs under extremely low-bit
quantization (e.g., 4-bit or below). We begin with a theoretical analysis
demonstrating that reducing the gradient norm is essential to facilitate
convergence for QAT. To this end, we introduce auxiliary modules (Phi) to
mitigate large quantization errors, leading to significantly enhanced
convergence. To eliminate the inference overhead of Phi, we propose a
rank-decay strategy that progressively eliminates Phi. Specifically, we
repeatedly employ singular value decomposition (SVD) and a proposed rank-based
regularization gamma to identify and decay low-contributing
components. This strategy retains performance while zeroing out inference
overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs,
with parameter sizes ranging from 1.3B sim14B, show that QVGen is the
first to reach full-precision comparable quality under 4-bit settings.
Moreover, it significantly outperforms existing methods. For instance, our
3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and
+8.43 in Scene Consistency on VBench.Summary
AI-Generated Summary