Difusão de Vídeo Autorregressiva Rápida e Modelos de Mundo com Compressão de Cache Temporal e Atenção Esparsa

Resumo

Os modelos de difusão de vídeo autoregressivos permitem a geração em fluxo contínuo, abrindo caminho para a síntese de vídeos de longa duração, modelos de mundo de vídeo e motores de jogos neurais interativos. No entanto, suas camadas de atenção centrais tornam-se um grande gargalo no tempo de inferência: à medida que a geração progride, a cache de chaves-valores (KV) cresce, causando tanto latência crescente quanto aumento progressivo da memória da GPU, o que, por sua vez, restringe o contexto temporal utilizável e prejudica a consistência de longo alcance. Neste trabalho, estudamos a redundância na difusão de vídeo autoregressiva e identificamos três fontes persistentes: chaves em cache quase duplicadas entre quadros, consultas/chaves que evoluem lentamente (em grande parte semânticas) que tornam muitos cálculos de atenção redundantes, e a atenção cruzada sobre *prompts* longos, onde apenas um pequeno subconjunto de *tokens* é relevante por quadro. Com base nessas observações, propomos uma estrutura de atenção unificada e livre de treinamento para difusão autoregressiva: TempCache comprime a cache KV via correspondência temporal para limitar seu crescimento; AnnCA acelera a atenção cruzada selecionando *tokens* do *prompt* relevantes para o quadro usando correspondência aproximada de vizinhos mais próximos (ANN) rápida; e AnnSA esparsifica a auto-atenção restringindo cada consulta a chaves semanticamente correspondentes, também usando um ANN leve. Juntos, esses módulos reduzem a atenção, o cálculo e a memória, sendo compatíveis com *backbones* de difusão autoregressiva e modelos de mundo existentes. Experimentos demonstram acelerações de até 5x a 10x de ponta a ponta, preservando qualidade visual quase idêntica e, crucialmente, mantendo uma taxa de transferência estável e um uso de memória de pico da GPU quase constante durante *rollouts* longos, onde os métodos anteriores tornam-se progressivamente mais lentos e sofrem com o aumento do uso de memória.

English

Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.

Difusão de Vídeo Autorregressiva Rápida e Modelos de Mundo com Compressão de Cache Temporal e Atenção Esparsa

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Resumo

Support