Quant VideoGen: Generazione Autoregressiva di Video Lunghi tramite Quantizzazione KV-Cache a 2 Bit
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
February 3, 2026
Autori: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI
Abstract
Nonostante i rapidi progressi nella diffusione video autoregressiva, un collo di bottiglia algoritmico emergente nei sistemi limita sia la distribuibilità che la capacità generativa: la memoria della cache KV. Nei modelli di generazione video autoregressivi, la cache KV cresce con la cronologia di generazione e domina rapidamente la memoria GPU, superando spesso i 30 GB, il che ne impedisce la distribuzione su hardware ampiamente disponibile. Ancora più critico, budget limitati per la cache KV vincolano la memoria di lavoro effettiva, degradando direttamente la coerenza a lungo termine di identità, layout e movimento. Per affrontare questa sfida, presentiamo Quant VideoGen (QVG), un framework di quantizzazione della cache KV senza necessità di addestramento per modelli di diffusione video autoregressivi. QVG sfrutta la ridondanza spaziotemporale del video attraverso lo Smoothing Semantico Consapevole, producendo residui a bassa magnitudine e adatti alla quantizzazione. Introduce inoltre la Quantizzazione Progressiva dei Residui, uno schema multi-stadio da grossolano a fine che riduce l'errore di quantizzazione consentendo al contempo un compromesso fluido tra qualità e memoria. Sui benchmark LongCat Video, HY WorldPlay e Self Forcing, QVG stabilisce una nuova frontiera di Pareto tra qualità ed efficienza di memoria, riducendo la memoria della cache KV fino a 7,0 volte con un overhead di latenza end-to-end inferiore al 4%, superando costantemente le baseline esistenti nella qualità della generazione.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.