Difusão de Vídeo Autorregressiva Rápida e Modelos de Mundo com Compressão de Cache Temporal e Atenção Esparsa
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
February 2, 2026
Autores: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI
Resumo
Os modelos de difusão de vídeo autoregressivos permitem a geração em fluxo contínuo, abrindo caminho para a síntese de vídeos de longa duração, modelos de mundo de vídeo e motores de jogos neurais interativos. No entanto, suas camadas de atenção centrais tornam-se um grande gargalo no tempo de inferência: à medida que a geração progride, a cache de chaves-valores (KV) cresce, causando tanto latência crescente quanto aumento progressivo da memória da GPU, o que, por sua vez, restringe o contexto temporal utilizável e prejudica a consistência de longo alcance. Neste trabalho, estudamos a redundância na difusão de vídeo autoregressiva e identificamos três fontes persistentes: chaves em cache quase duplicadas entre quadros, consultas/chaves que evoluem lentamente (em grande parte semânticas) que tornam muitos cálculos de atenção redundantes, e a atenção cruzada sobre *prompts* longos, onde apenas um pequeno subconjunto de *tokens* é relevante por quadro. Com base nessas observações, propomos uma estrutura de atenção unificada e livre de treinamento para difusão autoregressiva: TempCache comprime a cache KV via correspondência temporal para limitar seu crescimento; AnnCA acelera a atenção cruzada selecionando *tokens* do *prompt* relevantes para o quadro usando correspondência aproximada de vizinhos mais próximos (ANN) rápida; e AnnSA esparsifica a auto-atenção restringindo cada consulta a chaves semanticamente correspondentes, também usando um ANN leve. Juntos, esses módulos reduzem a atenção, o cálculo e a memória, sendo compatíveis com *backbones* de difusão autoregressiva e modelos de mundo existentes. Experimentos demonstram acelerações de até 5x a 10x de ponta a ponta, preservando qualidade visual quase idêntica e, crucialmente, mantendo uma taxa de transferência estável e um uso de memória de pico da GPU quase constante durante *rollouts* longos, onde os métodos anteriores tornam-se progressivamente mais lentos e sofrem com o aumento do uso de memória.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.