Quant VideoGen: Autoregressive Erzeugung langer Videos mittels 2-Bit-KV-Cache-Quantisierung
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
February 3, 2026
papers.authors: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI
papers.abstract
Trotz rascher Fortschritte bei autoregressiven Video-Diffusionsmodellen stellt ein aufkommender Systemalgorithmus-Flaschenhals sowohl die Einsatzfähigkeit als auch die Generierungsleistung erheblich infrage: der KV-Cache-Speicher. In autoregressiven Videogenerierungsmodellen wächst der KV-Cache mit dem Generierungsverlauf und dominiert schnell den GPU-Speicher, wobei er oft 30 GB überschreitet und den Einsatz auf weit verbreiteter Hardware verhindert. Noch kritischer ist, dass eingeschränkte KV-Cache-Budgets den effektiven Arbeitsspeicher begrenzen, was direkt die Langzeitkonsistenz von Identität, Layout und Bewegung beeinträchtigt. Um diese Herausforderung zu bewältigen, präsentieren wir Quant VideoGen (QVG), einen trainingsfreien KV-Cache-Quantisierungsrahmen für autoregressive Video-Diffusionsmodelle. QVG nutzt die raumzeitliche Redundanz von Videos durch semantisch bewusstes Glätten, um residuals Signale mit geringer Amplitude und quantisierungsfreundlichen Eigenschaften zu erzeugen. Weiterhin wird eine progressive Residualquantisierung eingeführt, ein mehrstufiges Schema vom Groben zum Feinen, das Quantisierungsfehler reduziert und gleichzeitig einen sanften Qualitäts-Speicher-Kompromiss ermöglicht. In Benchmarks mit LongCat Video, HY WorldPlay und Self Forcing etabliert QVG eine neue Pareto-Grenze zwischen Qualität und Speichereffizienz, reduziert den KV-Cache-Speicherbedarf um bis zum 7,0-fachen bei einem End-to-End-Latenzoverhead von weniger als 4 % und übertrifft dabei bestehende Baseline-Methoden durchgängig in der Generierungsqualität.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.