QVGen: Llevando al límite los modelos generativos de video cuantizados
QVGen: Pushing the Limit of Quantized Video Generative Models
May 16, 2025
Autores: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI
Resumen
Los modelos de difusión de video (DMs) han permitido la síntesis de video de alta calidad. Sin embargo, sus considerables demandas computacionales y de memoria plantean serios desafíos para su implementación en el mundo real, incluso en GPUs de gama alta. Como solución comúnmente adoptada, la cuantización ha demostrado un éxito notable en la reducción de costos para los DMs de imágenes, mientras que su aplicación directa a los DMs de video sigue siendo ineficaz. En este artículo, presentamos QVGen, un marco de entrenamiento consciente de la cuantización (QAT) novedoso, diseñado para DMs de video de alto rendimiento y eficiencia en la inferencia bajo cuantización de bits extremadamente bajos (por ejemplo, 4 bits o menos). Comenzamos con un análisis teórico que demuestra que reducir la norma del gradiente es esencial para facilitar la convergencia en QAT. Para ello, introducimos módulos auxiliares (Phi) para mitigar grandes errores de cuantización, lo que conduce a una convergencia significativamente mejorada. Para eliminar la sobrecarga de inferencia de Phi, proponemos una estrategia de decaimiento de rango que elimina progresivamente Phi. Específicamente, empleamos repetidamente la descomposición en valores singulares (SVD) y una regularización basada en rango propuesta, gamma, para identificar y decaer los componentes de baja contribución. Esta estrategia mantiene el rendimiento mientras elimina la sobrecarga de inferencia. Experimentos extensos en 4 DMs de video de última generación (SOTA), con tamaños de parámetros que van desde 1.3B hasta 14B, muestran que QVGen es el primero en alcanzar una calidad comparable a la de precisión completa en configuraciones de 4 bits. Además, supera significativamente a los métodos existentes. Por ejemplo, nuestro CogVideoX-2B de 3 bits logra mejoras de +25.28 en Grado Dinámico y +8.43 en Consistencia de Escena en VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet,
their substantial computational and memory demands pose serious challenges to
real-world deployment, even on high-end GPUs. As a commonly adopted solution,
quantization has proven notable success in reducing cost for image DMs, while
its direct application to video DMs remains ineffective. In this paper, we
present QVGen, a novel quantization-aware training (QAT) framework tailored for
high-performance and inference-efficient video DMs under extremely low-bit
quantization (e.g., 4-bit or below). We begin with a theoretical analysis
demonstrating that reducing the gradient norm is essential to facilitate
convergence for QAT. To this end, we introduce auxiliary modules (Phi) to
mitigate large quantization errors, leading to significantly enhanced
convergence. To eliminate the inference overhead of Phi, we propose a
rank-decay strategy that progressively eliminates Phi. Specifically, we
repeatedly employ singular value decomposition (SVD) and a proposed rank-based
regularization gamma to identify and decay low-contributing
components. This strategy retains performance while zeroing out inference
overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs,
with parameter sizes ranging from 1.3B sim14B, show that QVGen is the
first to reach full-precision comparable quality under 4-bit settings.
Moreover, it significantly outperforms existing methods. For instance, our
3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and
+8.43 in Scene Consistency on VBench.Summary
AI-Generated Summary