Diffusione Video Autoregressiva Rapida e Modelli del Mondo con Compressione della Cache Temporale e Attenzione Sparsa
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
February 2, 2026
Autori: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI
Abstract
I modelli di diffusione video autoregressivi abilitano la generazione in streaming, aprendo la porta alla sintesi di contenuti long-form, ai modelli di mondo video e ai motori di gioco neurali interattivi. Tuttavia, i loro strati di attenzione centrali diventano un collo di bottiglia principale durante l'inferenza: con il progredire della generazione, la cache dei valori-chiave (KV) cresce, causando sia una latenza crescente che un aumento progressivo della memoria GPU, che a sua volta limita il contesto temporale utilizzabile e compromette la coerenza a lungo raggio. In questo lavoro, studiamo la ridondanza nella diffusione video autoregressiva e identifichiamo tre fonti persistenti: chiavi nella cache quasi duplicate tra i frame, query/chiavi che evolvono lentamente (per lo più semantiche) che rendono ridondanti molti calcoli di attenzione, e la cross-attention su prompt lunghi dove solo un piccolo sottoinsieme di token è rilevante per frame. Basandoci su queste osservazioni, proponiamo un framework di attenzione unificato e senza addestramento per la diffusione autoregressiva: TempCache comprime la cache KV tramite corrispondenza temporale per limitarne la crescita; AnnCA accelera la cross-attention selezionando i token del prompt rilevanti per il frame utilizzando un'approssimazione veloce del nearest neighbor (ANN); e AnnSA sparsifica la self-attention limitando ogni query a chiavi semanticamente corrispondenti, anch'esso utilizzando un ANN leggero. Insieme, questi moduli riducono l'attenzione, il calcolo e la memoria e sono compatibili con le architetture di diffusione autoregressive esistenti e con i modelli di mondo. Gli esperimenti dimostrano accelerazioni end-to-end fino a 5-10 volte preservando una qualità visiva quasi identica e, crucialmente, mantenendo una velocità di elaborazione stabile e un utilizzo di picco della memoria GPU quasi costante durante generazioni lunghe, laddove i metodi precedenti rallentano progressivamente e soffrono di un utilizzo di memoria crescente.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.