Quant VideoGen: Generación Autoregresiva de Videos Largos Mediante Cuantización de Caché KV de 2 Bits
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
February 3, 2026
Autores: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI
Resumen
A pesar del rápido progreso en la difusión de video autorregresivo, un cuello de botella algorítmico emergente en el sistema limita tanto la capacidad de despliegue como la de generación: la memoria caché KV. En los modelos de generación de video autorregresivos, la caché KV crece con el historial de generación y rápidamente domina la memoria de la GPU, a menudo superando los 30 GB, lo que impide su implementación en hardware ampliamente disponible. Más críticamente, los presupuestos restringidos de la caché KV limitan la memoria de trabajo efectiva, degradando directamente la coherencia a largo plazo en identidad, disposición y movimiento. Para abordar este desafío, presentamos Quant VideoGen (QVG), un marco de cuantización de caché KV sin necesidad de entrenamiento para modelos de difusión de video autorregresivos. QVG aprovecha la redundancia espaciotemporal del video mediante Suavizado Semánticamente Consciente, produciendo residuos de baja magnitud y amigables para la cuantización. Además, introduce Cuantización Progresiva de Residuos, un esquema multifase de grueso a fino que reduce el error de cuantización al tiempo que permite una compensación fluida entre calidad y memoria. En los puntos de referencia LongCat Video, HY WorldPlay y Self Forcing, QVG establece una nueva frontera de Pareto entre calidad y eficiencia de memoria, reduciendo la memoria caché KV hasta 7.0 veces con una sobrecarga de latencia de extremo a extremo inferior al 4%, superando consistentemente a las líneas base existentes en calidad de generación.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.