QVGen: Llevando al límite los modelos generativos de video cuantizados

Resumen

Los modelos de difusión de video (DMs) han permitido la síntesis de video de alta calidad. Sin embargo, sus considerables demandas computacionales y de memoria plantean serios desafíos para su implementación en el mundo real, incluso en GPUs de gama alta. Como solución comúnmente adoptada, la cuantización ha demostrado un éxito notable en la reducción de costos para los DMs de imágenes, mientras que su aplicación directa a los DMs de video sigue siendo ineficaz. En este artículo, presentamos QVGen, un marco de entrenamiento consciente de la cuantización (QAT) novedoso, diseñado para DMs de video de alto rendimiento y eficiencia en la inferencia bajo cuantización de bits extremadamente bajos (por ejemplo, 4 bits o menos). Comenzamos con un análisis teórico que demuestra que reducir la norma del gradiente es esencial para facilitar la convergencia en QAT. Para ello, introducimos módulos auxiliares (Phi) para mitigar grandes errores de cuantización, lo que conduce a una convergencia significativamente mejorada. Para eliminar la sobrecarga de inferencia de Phi, proponemos una estrategia de decaimiento de rango que elimina progresivamente Phi. Específicamente, empleamos repetidamente la descomposición en valores singulares (SVD) y una regularización basada en rango propuesta, gamma, para identificar y decaer los componentes de baja contribución. Esta estrategia mantiene el rendimiento mientras elimina la sobrecarga de inferencia. Experimentos extensos en 4 DMs de video de última generación (SOTA), con tamaños de parámetros que van desde 1.3B hasta 14B, muestran que QVGen es el primero en alcanzar una calidad comparable a la de precisión completa en configuraciones de 4 bits. Además, supera significativamente a los métodos existentes. Por ejemplo, nuestro CogVideoX-2B de 3 bits logra mejoras de +25.28 en Grado Dinámico y +8.43 en Consistencia de Escena en VBench.

English

Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules (Phi) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of Phi, we propose a rank-decay strategy that progressively eliminates Phi. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization gamma to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs, with parameter sizes ranging from 1.3B sim14B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and +8.43 in Scene Consistency on VBench.

QVGen: Llevando al límite los modelos generativos de video cuantizados

QVGen: Pushing the Limit of Quantized Video Generative Models

Resumen

Support