ChatPaper.aiChatPaper

Quant VideoGen: Geração Autoregressiva de Vídeos Longos via Quantização de Cache KV de 2 Bits

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

February 3, 2026
Autores: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI

Resumo

Apesar dos rápidos avanços na difusão de vídeo autoregressiva, um gargalo algorítmico emergente nos sistemas limita tanto a implantabilidade quanto a capacidade de geração: a memória da cache KV. Nos modelos de geração de vídeo autoregressivos, a cache KV cresce com o histórico de geração e rapidamente domina a memória da GPU, frequentemente excedendo 30 GB, o que impede a implantação em hardwares amplamente disponíveis. Mais criticamente, orçamentos restritos para a cache KV limitam a memória de trabalho efetiva, degradando diretamente a consistência de longo prazo na identidade, no layout e no movimento. Para enfrentar este desafio, apresentamos o Quant VideoGen (QVG), uma estrutura de quantização da cache KV livre de treinamento para modelos de difusão de vídeo autoregressivos. O QVG aproveita a redundância espaço-temporal do vídeo por meio de Suavização Semântica Consciente, produzindo resíduos de baixa magnitude e amigáveis à quantização. Introduz ainda a Quantização Progressiva de Resíduos, um esquema multiestágio de granularidade grossa para fina que reduz o erro de quantização, permitindo uma transição suave entre qualidade e memória. Nos benchmarks LongCat Video, HY WorldPlay e Self Forcing, o QVG estabelece uma nova fronteira de Pareto entre qualidade e eficiência de memória, reduzindo a memória da cache KV em até 7,0 vezes com uma sobrecarga de latência de ponta a ponta inferior a 4%, superando consistentemente as linhas de base existentes em qualidade de geração.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.
PDF323February 8, 2026