ChatPaper.aiChatPaper

Быстрая авторегрессионная видеодиффузия и мировые модели со сжатием временного кэша и разреженным вниманием

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

February 2, 2026
Авторы: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI

Аннотация

Авторегрессионные диффузионные модели видео позволяют осуществлять потоковую генерацию, открывая путь к синтезу длинных последовательностей, видео-мировым моделям и интерактивным нейросетевым игровым движкам. Однако их ключевые слои внимания становятся основным узким местом на этапе вывода: по мере генерации кэш ключей-значений (KV-кэш) растет, что приводит к увеличению задержки и росту потребляемой памяти GPU, что, в свою очередь, ограничивает используемый временной контекст и нарушает долгосрочную согласованность. В данной работе мы исследуем избыточность в авторегрессионной диффузии видео и выявляем три устойчивых источника: почти идентичные кэшированные ключи между кадрами, медленно эволюционирующие (в основном семантические) запросы/ключи, которые делают многие вычисления внимания избыточными, и кросс-внимание по длинным промптам, где для каждого кадра важна лишь небольшая подмножество токенов. Опираясь на эти наблюдения, мы предлагаем унифицированную, не требующую дообучения, архитектуру внимания для авторегрессионной диффузии: TempCache сжимает KV-кэш с помощью временных соответствий, чтобы ограничить его рост; AnnCA ускоряет кросс-внимание, выбирая релевантные для кадра токены промпта с помощью быстрого приближенного поиска ближайших соседей (ANN); и AnnSA разреживает самовнимание, ограничивая каждый запрос семантически соответствующими ключами, также используя легковесный ANN. Вместе эти модули сокращают затраты на внимание, вычисления и память и совместимы с существующими авторегрессионными диффузионными архитектурами и мировыми моделями. Эксперименты демонстрируют до 5–10-кратного ускорения end-to-end при сохранении практически идентичного визуального качества и, что критически важно, поддержании стабильной пропускной способности и почти постоянного пикового потребления памяти GPU при длительных прогонах, в то время как предыдущие методы постепенно замедляются и страдают от растущего потребления памяти.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.
PDF272February 7, 2026