QVGen: Spingere al limite i modelli generativi di video quantizzati
QVGen: Pushing the Limit of Quantized Video Generative Models
May 16, 2025
Autori: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI
Abstract
I modelli di diffusione video (DMs) hanno reso possibile la sintesi di video di alta qualità. Tuttavia, le loro notevoli esigenze computazionali e di memoria pongono serie sfide per il dispiegamento nel mondo reale, anche su GPU di fascia alta. Come soluzione comunemente adottata, la quantizzazione ha dimostrato un notevole successo nel ridurre i costi per i DMs di immagini, mentre la sua applicazione diretta ai DMs video rimane inefficace. In questo articolo, presentiamo QVGen, un nuovo framework di addestramento consapevole della quantizzazione (QAT) progettato per DMs video ad alte prestazioni e efficienti nell'inferenza sotto quantizzazione a bit estremamente bassi (ad esempio, 4 bit o meno). Iniziamo con un'analisi teorica che dimostra come ridurre la norma del gradiente sia essenziale per facilitare la convergenza per QAT. A tal fine, introduciamo moduli ausiliari (Phi) per mitigare grandi errori di quantizzazione, portando a una convergenza significativamente migliorata. Per eliminare l'overhead di inferenza di Phi, proponiamo una strategia di decadimento del rango che elimina progressivamente Phi. Nello specifico, utilizziamo ripetutamente la decomposizione ai valori singolari (SVD) e una regolarizzazione basata sul rango proposta, gamma, per identificare e decadere i componenti a basso contributo. Questa strategia mantiene le prestazioni azzerando l'overhead di inferenza. Esperimenti estesi su 4 DMs video all'avanguardia (SOTA), con dimensioni dei parametri che vanno da 1,3B a 14B, mostrano che QVGen è il primo a raggiungere una qualità comparabile alla precisione completa in impostazioni a 4 bit. Inoltre, supera significativamente i metodi esistenti. Ad esempio, il nostro CogVideoX-2B a 3 bit ottiene miglioramenti di +25,28 in Dynamic Degree e +8,43 in Scene Consistency su VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet,
their substantial computational and memory demands pose serious challenges to
real-world deployment, even on high-end GPUs. As a commonly adopted solution,
quantization has proven notable success in reducing cost for image DMs, while
its direct application to video DMs remains ineffective. In this paper, we
present QVGen, a novel quantization-aware training (QAT) framework tailored for
high-performance and inference-efficient video DMs under extremely low-bit
quantization (e.g., 4-bit or below). We begin with a theoretical analysis
demonstrating that reducing the gradient norm is essential to facilitate
convergence for QAT. To this end, we introduce auxiliary modules (Phi) to
mitigate large quantization errors, leading to significantly enhanced
convergence. To eliminate the inference overhead of Phi, we propose a
rank-decay strategy that progressively eliminates Phi. Specifically, we
repeatedly employ singular value decomposition (SVD) and a proposed rank-based
regularization gamma to identify and decay low-contributing
components. This strategy retains performance while zeroing out inference
overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs,
with parameter sizes ranging from 1.3B sim14B, show that QVGen is the
first to reach full-precision comparable quality under 4-bit settings.
Moreover, it significantly outperforms existing methods. For instance, our
3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and
+8.43 in Scene Consistency on VBench.