Быстрая авторегрессионная видеодиффузия и мировые модели со сжатием временного кэша и разреженным вниманием
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
February 2, 2026
Авторы: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI
Аннотация
Авторегрессионные диффузионные модели видео позволяют осуществлять потоковую генерацию, открывая путь к синтезу длинных последовательностей, видео-мировым моделям и интерактивным нейросетевым игровым движкам. Однако их ключевые слои внимания становятся основным узким местом на этапе вывода: по мере генерации кэш ключей-значений (KV-кэш) растет, что приводит к увеличению задержки и росту потребляемой памяти GPU, что, в свою очередь, ограничивает используемый временной контекст и нарушает долгосрочную согласованность. В данной работе мы исследуем избыточность в авторегрессионной диффузии видео и выявляем три устойчивых источника: почти идентичные кэшированные ключи между кадрами, медленно эволюционирующие (в основном семантические) запросы/ключи, которые делают многие вычисления внимания избыточными, и кросс-внимание по длинным промптам, где для каждого кадра важна лишь небольшая подмножество токенов. Опираясь на эти наблюдения, мы предлагаем унифицированную, не требующую дообучения, архитектуру внимания для авторегрессионной диффузии: TempCache сжимает KV-кэш с помощью временных соответствий, чтобы ограничить его рост; AnnCA ускоряет кросс-внимание, выбирая релевантные для кадра токены промпта с помощью быстрого приближенного поиска ближайших соседей (ANN); и AnnSA разреживает самовнимание, ограничивая каждый запрос семантически соответствующими ключами, также используя легковесный ANN. Вместе эти модули сокращают затраты на внимание, вычисления и память и совместимы с существующими авторегрессионными диффузионными архитектурами и мировыми моделями. Эксперименты демонстрируют до 5–10-кратного ускорения end-to-end при сохранении практически идентичного визуального качества и, что критически важно, поддержании стабильной пропускной способности и почти постоянного пикового потребления памяти GPU при длительных прогонах, в то время как предыдущие методы постепенно замедляются и страдают от растущего потребления памяти.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.