Snelle Autoregressieve Videodiffusie en Wereldmodellen met Temporele Cachecompressie en Sparse Attention

Samenvatting

Autoregressieve videodiffusiemodellen maken streaminggeneratie mogelijk, wat de deur opent naar synthese van lange vorm, videowereldmodellen en interactieve neurale game-engines. Hun kern-attentielagen worden echter een grote bottleneck tijdens inferentie: naarmate de generatie vordert, groeit de KV-cache, wat leidt tot toenemende latentie en stijgend GPU-geheugengebruik. Dit beperkt op zijn beurt de bruikbare temporele context en schaadt de consistentie op lange termijn. In dit werk bestuderen we redundantie in autoregressieve videodiffusie en identificeren we drie hardnekkige bronnen: bijna-identieke gecachete sleutels tussen frames, langzaam evoluerende (voornamelijk semantische) queries/sleutels die veel aandachtberekeningen overbodig maken, en cross-attention over lange prompts waarbij slechts een kleine subset tokens per frame relevant is. Voortbouwend op deze observaties stellen we een uniform, trainingsvrij attentieraamwerk voor voor autoregressieve diffusie: TempCache comprimeert de KV-cache via temporele correspondentie om de cachegroei te begrenzen; AnnCA versnelt cross-attention door framerelevante prompt-tokens te selecteren met snelle approximatieve nearest neighbor (ANN)-koppeling; en AnnSA verspaart self-attention door elke query te beperken tot semantisch gematchte sleutels, eveneens met een lichtgewicht ANN. Gezamenlijk verminderen deze modules aandacht, rekenwerk en geheugen, en zijn ze compatibel met bestaande autoregressieve diffusie-backbones en wereldmodellen. Experimenten tonen end-to-end versnellingen tot x5–x10 aan, met behoud van bijna identieke visuele kwaliteit en, cruciaal, stabiele doorvoer en nagenoeg constant piek-GPU-geheugengebruik over lange rollouts, waar eerdere methoden progressief vertragen en lijden onder toenemend geheugengebruik.

English

Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.

Snelle Autoregressieve Videodiffusie en Wereldmodellen met Temporele Cachecompressie en Sparse Attention

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Samenvatting

Support