QVGen: Расширение границ квантованных генеративных моделей для видео
QVGen: Pushing the Limit of Quantized Video Generative Models
May 16, 2025
Авторы: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI
Аннотация
Модели диффузии видео (DMs) обеспечивают синтез видео высокого качества. Однако их значительные вычислительные и ресурсные требования создают серьезные проблемы для практического применения, даже на высокопроизводительных GPU. В качестве распространенного решения квантование доказало свою эффективность в снижении затрат для моделей диффузии изображений, но его прямое применение к моделям видео остается малоэффективным. В данной статье мы представляем QVGen — новую структуру для обучения с учетом квантования (QAT), разработанную для высокопроизводительных и эффективных моделей диффузии видео при крайне низкобитном квантовании (например, 4 бита или ниже). Мы начинаем с теоретического анализа, показывающего, что уменьшение нормы градиента является ключевым для обеспечения сходимости в QAT. Для этого мы вводим вспомогательные модули (Phi), чтобы смягчить значительные ошибки квантования, что существенно улучшает сходимость. Чтобы устранить накладные расходы на вывод данных для Phi, мы предлагаем стратегию затухания ранга, которая постепенно устраняет Phi. В частности, мы многократно используем сингулярное разложение (SVD) и предложенную ранговую регуляризацию gamma для выявления и затухания компонентов с низким вкладом. Эта стратегия сохраняет производительность, устраняя накладные расходы на вывод данных. Многочисленные эксперименты с 4 современными моделями диффузии видео, размеры параметров которых варьируются от 1,3B до 14B, показывают, что QVGen впервые достигает качества, сопоставимого с полной точностью, при 4-битных настройках. Более того, он значительно превосходит существующие методы. Например, наша 3-битная модель CogVideoX-2B демонстрирует улучшения на +25,28 по показателю Dynamic Degree и +8,43 по показателю Scene Consistency на VBench.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet,
their substantial computational and memory demands pose serious challenges to
real-world deployment, even on high-end GPUs. As a commonly adopted solution,
quantization has proven notable success in reducing cost for image DMs, while
its direct application to video DMs remains ineffective. In this paper, we
present QVGen, a novel quantization-aware training (QAT) framework tailored for
high-performance and inference-efficient video DMs under extremely low-bit
quantization (e.g., 4-bit or below). We begin with a theoretical analysis
demonstrating that reducing the gradient norm is essential to facilitate
convergence for QAT. To this end, we introduce auxiliary modules (Phi) to
mitigate large quantization errors, leading to significantly enhanced
convergence. To eliminate the inference overhead of Phi, we propose a
rank-decay strategy that progressively eliminates Phi. Specifically, we
repeatedly employ singular value decomposition (SVD) and a proposed rank-based
regularization gamma to identify and decay low-contributing
components. This strategy retains performance while zeroing out inference
overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs,
with parameter sizes ranging from 1.3B sim14B, show that QVGen is the
first to reach full-precision comparable quality under 4-bit settings.
Moreover, it significantly outperforms existing methods. For instance, our
3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and
+8.43 in Scene Consistency on VBench.Summary
AI-Generated Summary