ChatPaper.aiChatPaper

QVGen: 양자화된 비디오 생성 모델의 한계를 넘어서기

QVGen: Pushing the Limit of Quantized Video Generative Models

May 16, 2025
저자: Yushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang
cs.AI

초록

비디오 확산 모델(DMs)은 고품질 비디오 합성을 가능하게 했습니다. 그러나 이러한 모델의 상당한 계산 및 메모리 요구 사항은 고성능 GPU에서도 실제 배포에 심각한 문제를 제기합니다. 일반적으로 채택되는 해결책인 양자화는 이미지 DMs의 비용 절감에서 두드러진 성공을 거두었지만, 이를 비디오 DMs에 직접 적용하는 것은 효과적이지 못했습니다. 본 논문에서는 극도로 낮은 비트 양자화(예: 4비트 이하)에서 고성능 및 효율적인 추론을 위한 비디오 DMs를 위한 새로운 양자화 인지 학습(QAT) 프레임워크인 QVGen을 제안합니다. 먼저, QAT의 수렴을 촉진하기 위해 그래디언트 노름을 줄이는 것이 필수적임을 이론적으로 분석합니다. 이를 위해, 큰 양자화 오류를 완화하기 위한 보조 모듈(Phi)을 도입하여 수렴을 크게 향상시킵니다. Phi의 추론 오버헤드를 제거하기 위해, 점진적으로 Phi를 제거하는 랭크 감소 전략을 제안합니다. 구체적으로, 우리는 반복적으로 특이값 분해(SVD)와 제안된 랭크 기반 정규화 감마를 사용하여 낮은 기여도를 가진 구성 요소를 식별하고 감소시킵니다. 이 전략은 성능을 유지하면서 추론 오버헤드를 제로로 만듭니다. 1.3B에서 14B에 이르는 파라미터 크기를 가진 4개의 최신 비디오 DMs에 대한 광범위한 실험을 통해, QVGen이 4비트 설정에서 완전 정밀도에 필적하는 품질을 처음으로 달성함을 보여줍니다. 더욱이, 기존 방법을 크게 능가합니다. 예를 들어, 우리의 3비트 CogVideoX-2B는 VBench에서 Dynamic Degree에서 +25.28, Scene Consistency에서 +8.43의 개선을 달성했습니다.
English
Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules (Phi) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of Phi, we propose a rank-decay strategy that progressively eliminates Phi. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization gamma to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across 4 state-of-the-art (SOTA) video DMs, with parameter sizes ranging from 1.3B sim14B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of +25.28 in Dynamic Degree and +8.43 in Scene Consistency on VBench.

Summary

AI-Generated Summary

PDF32May 20, 2025