QVGen: Expandindo os Limites dos Modelos Generativos de Vídeo Quantizados
QVGen: Pushing the Limit of Quantized Video Generative Models
May 16, 2025
Autores: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI
Resumo
Modelos de difusão de vídeo (DMs) têm possibilitado a síntese de vídeos de alta qualidade. No entanto, suas demandas substanciais de computação e memória apresentam sérios desafios para a implantação no mundo real, mesmo em GPUs de alto desempenho. Como uma solução comumente adotada, a quantização tem demonstrado sucesso notável na redução de custos para DMs de imagem, enquanto sua aplicação direta em DMs de vídeo permanece ineficaz. Neste artigo, apresentamos o QVGen, uma nova estrutura de treinamento ciente de quantização (QAT) projetada para DMs de vídeo de alto desempenho e eficiência de inferência sob quantização de bits extremamente baixos (por exemplo, 4 bits ou menos). Começamos com uma análise teórica demonstrando que a redução da norma do gradiente é essencial para facilitar a convergência do QAT. Para isso, introduzimos módulos auxiliares (Phi) para mitigar grandes erros de quantização, levando a uma convergência significativamente aprimorada. Para eliminar a sobrecarga de inferência do Phi, propomos uma estratégia de decaimento de posto que progressivamente elimina o Phi. Especificamente, empregamos repetidamente a decomposição em valores singulares (SVD) e uma regularização baseada em posto proposta, chamada gama, para identificar e decair componentes de baixa contribuição. Essa estratégia mantém o desempenho enquanto elimina a sobrecarga de inferência. Experimentos extensivos em 4 DMs de vídeo state-of-the-art (SOTA), com tamanhos de parâmetros variando de 1,3B a 14B, mostram que o QVGen é o primeiro a alcançar qualidade comparável à de precisão total em configurações de 4 bits. Além disso, ele supera significativamente os métodos existentes. Por exemplo, nosso CogVideoX-2B de 3 bits alcança melhorias de +25,28 em Grau Dinâmico e +8,43 em Consistência de Cena no VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet,
their substantial computational and memory demands pose serious challenges to
real-world deployment, even on high-end GPUs. As a commonly adopted solution,
quantization has proven notable success in reducing cost for image DMs, while
its direct application to video DMs remains ineffective. In this paper, we
present QVGen, a novel quantization-aware training (QAT) framework tailored for
high-performance and inference-efficient video DMs under extremely low-bit
quantization (e.g., 4-bit or below). We begin with a theoretical analysis
demonstrating that reducing the gradient norm is essential to facilitate
convergence for QAT. To this end, we introduce auxiliary modules (Phi) to
mitigate large quantization errors, leading to significantly enhanced
convergence. To eliminate the inference overhead of Phi, we propose a
rank-decay strategy that progressively eliminates Phi. Specifically, we
repeatedly employ singular value decomposition (SVD) and a proposed rank-based
regularization gamma to identify and decay low-contributing
components. This strategy retains performance while zeroing out inference
overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs,
with parameter sizes ranging from 1.3B sim14B, show that QVGen is the
first to reach full-precision comparable quality under 4-bit settings.
Moreover, it significantly outperforms existing methods. For instance, our
3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and
+8.43 in Scene Consistency on VBench.