퀀트 비디오젠: 2비트 KV 캐시 양자화를 통한 자기회귀적 장기 비디오 생성
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
February 3, 2026
저자: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI
초록
자동회귀 비디오 확산 모델의 급속한 발전에도 불구하고, 배포 가능성과 생성 능력을 모두 제한하는 새로운 시스템 알고리즘 병목 현상이 대두되고 있습니다: KV 캐시 메모리 문제입니다. 자동회귀 비디오 생성 모델에서 KV 캐시는 생성 기록에 따라 증가하며 GPU 메모리를 빠르게 점유하여 종종 30GB를 초과하여 널리 보급된 하드웨어에서의 배포를 방해합니다. 더 중요한 것은, 제한된 KV 캐시 예산이 효과적인 작업 메모리를 제약함으로써 장기간 일관성(신원, 레이아웃, 모션)을 직접적으로 저하시킨다는 점입니다. 이러한 과제를 해결하기 위해 우리는 자동회귀 비디오 확산 모델을 위한 학습 불필요형 KV 캐시 양자화 프레임워크인 Quant VideoGen(QVG)을 제안합니다. QVG는 의미 인식 평활화를 통해 비디오 시공간 중복성을 활용하여 낮은 크기의 양자화에 적합한 잔차를 생성합니다. 또한 양자화 오류를 줄이면서 원활한 품질-메모리 트레이드오프를 가능하게 하는 coarse-to-fine 다단계 방식인 점진적 잔차 양자화를 도입합니다. LongCat Video, HY WorldPlay 및 Self Forcing 벤치마크에서 QVG는 품질과 메모리 효율성 사이의 새로운 파레토 최적선을确立하며, KV 캐시 메모리를 최대 7.0배까지 줄이면서 end-to-end 지연 시간 오버헤드는 4% 미만에 그치며 생성 품질에서도 기존 베이스라인을 지속적으로 능가합니다.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.