Quant VideoGen:2ビットKVキャッシュ量子化による自己回帰的長尺動画生成
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
February 3, 2026
著者: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI
要旨
オートリグレッシブ動画拡散モデルは急速な進歩を遂げているものの、新たなシステムアルゴリズム上のボトルネックが展開可能性と生成能力の両方を制限している:KVキャッシュメモリ問題である。オートリグレッシブ動画生成モデルでは、KVキャッシュは生成履歴に伴って増大し、GPUメモリを急速に圧迫する。多くの場合30GBを超え、広く利用可能なハードウェアへの展開を妨げている。さらに深刻なのは、制約されたKVキャッシュ予算が実効的な作業メモリを制限し、アイデンティティ・レイアウト・モーションにおける長期的な一貫性を直接的に劣化させる点である。この課題に対処するため、我々はオートリグレッシブ動画拡散モデル向けの学習不要なKVキャッシュ量子化フレームワーク「Quant VideoGen(QVG)」を提案する。QVGはセマンティック対応平滑化による動画の時空間的冗長性を活用し、低振幅で量子化に適した残差を生成する。さらに、段階的残差量子化と呼ばれる粗密多重段階方式を導入し、量子化誤差を低減するとともに、品質とメモリ使用量の滑らかなトレードオフを実現する。LongCat Video、HY WorldPlay、Self Forcingのベンチマークにおいて、QVGは品質とメモリ効率の新たなパレートフロンティアを確立し、KVキャッシュメモリを最大7.0倍削減し、エンドツーエンドの遅延オーバーヘッドを4%未満に抑えつつ、生成品質において既存のベースラインを一貫して上回る性能を示した。
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.