ChatPaper.aiChatPaper

Quant VideoGen : Génération de vidéos longues par auto-régression via une quantification du cache KV sur 2 bits

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

February 3, 2026
papers.authors: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI

papers.abstract

Malgré les progrès rapides des modèles de diffusion vidéo autorégressifs, un goulot d'étranglement algorithmique émergent limite à la fois la déployabilité et la capacité de génération : la mémoire cache KV. Dans les modèles de génération vidéo autorégressive, le cache KV croît avec l'historique de génération et domine rapidement la mémoire GPU, dépassant souvent 30 Go, ce qui empêche le déploiement sur du matériel largement disponible. Plus critique encore, des budgets contraints pour le cache KV restreignent la mémoire de travail effective, dégradant directement la cohérence à long terme de l'identité, de la disposition et du mouvement. Pour relever ce défi, nous présentons Quant VideoGen (QVG), un cadre de quantification du cache KV sans apprentissage pour les modèles de diffusion vidéo autorégressifs. QVG exploite la redondance spatiotemporelle vidéo via un Lissage Sémantiquement Conscient, produisant des résidus de faible magnitude, favorables à la quantification. Il introduit en outre la Quantification Progressive des Résidus, un schéma multi-étapes allant du grossier au fin qui réduit l'erreur de quantification tout en permettant un compromis fluide entre qualité et mémoire. Sur les benchmarks LongCat Video, HY WorldPlay et Self Forcing, QVG établit une nouvelle frontière de Pareto entre la qualité et l'efficacité mémoire, réduisant la mémoire du cache KV jusqu'à 7,0 fois avec une surcharge de latence de bout en bout inférieure à 4 %, tout en surpassant constamment les méthodes de référence existantes en qualité de génération.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.
PDF311February 6, 2026