Quant VideoGen: Autoregressieve Lange Videogeneratie via 2-Bits KV-Cache Kwantisatie
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
February 3, 2026
Auteurs: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI
Samenvatting
Ondanks snelle vooruitgang in autoregressieve videodiffusie vormt een opkomend systeemalgoritmeknelpunt een beperking voor zowel inzetbaarheid als generatievermogen: het KV-cachegeheugen. In autoregressieve videogeneratiemodellen groeit de KV-cache met de generatiegeschiedenis en domineert al snel het GPU-geheugen, vaak meer dan 30 GB overschrijdend, wat implementatie op breed beschikbare hardware verhindert. Crucialer is dat beperkte KV-cachebudgetten het effectieve werkgeheugen beperken, wat direct de consistentie op lange termijn in identiteit, lay-out en beweging aantast. Om deze uitdaging aan te pakken, presenteren wij Quant VideoGen (QVG), een trainingsvrij KV-cachekwantiseringsraamwerk voor autoregressieve videodiffusiemodellen. QVG benut spatiotemporele redundantie in video's via Semantisch Bewust Gladstrijken, waardoor residuen met een lage magnitude ontstaan die vriendelijk zijn voor kwantisering. Verder introduceert het Progressieve Residukwantisering, een meerfasenschema van grof naar fijn dat kwantisatiefouten vermindert en tegelijk een soepele kwaliteit-geheugenafweging mogelijk maakt. Op de benchmarks LongCat Video, HY WorldPlay en Self Forcing vestigt QVG een nieuwe Pareto-frontier tussen kwaliteit en geheugenefficiëntie, waarbij het KV-cachegeheugen tot 7,0 keer wordt teruggebracht met minder dan 4% end-to-end latentietoename, terwijl het consequent superieure generatiekwaliteit behaalt ten opzichte van bestaande basislijnen.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.