ChatPaper.aiChatPaper

Quant VideoGen: Авторегрессионная генерация длинных видео с помощью 2-битной квантизации KV-кэша

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

February 3, 2026
Авторы: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer
cs.AI

Аннотация

Несмотря на быстрый прогресс в авторегрессионной видео-диффузии, возникающее системное алгоритмическое узкое место — память KV-кэша — ограничивает как возможность развертывания, так и генеративные возможности. В авторегрессионных моделях генерации видео KV-кэш растет вместе с историей генерации и быстро начинает доминировать в памяти GPU, часто превышая 30 ГБ, что препятствует развертыванию на широко доступном оборудовании. Что более критично, ограниченный бюджет KV-кэша сужает эффективную рабочую память, напрямую ухудшая долгосрочную согласованность идентичности, композиции и движения. Для решения этой проблемы мы представляем Quant VideoGen (QVG) — не требующую дообучения систему квантования KV-кэша для авторегрессионных диффузионных моделей видео. QVG использует пространственно-временную избыточность видео с помощью семантического сглаживания, создавая остатки с низкой амплитудой, удобные для квантования. Кроме того, вводится прогрессивное квантование остатков — многостадийная схема от грубой к точной, которая снижает ошибку квантования, обеспечивая плавный компромисс между качеством и памятью. На бенчмарках LongCat Video, HY WorldPlay и Self Forcing QVG устанавливает новый парето-фронт между качеством и эффективностью использования памяти, сокращая объем памяти KV-кэша до 7.0 раз с увеличением сквозной задержки менее чем на 4%, при этом стабильно превосходя существующие базовые методы по качеству генерации.
English
Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.
PDF311February 6, 2026