Schnelle autoregressive Videodiffusion und Weltmodelle mit temporärer Cache-Kompression und sparsamer Aufmerksamkeit
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
February 2, 2026
papers.authors: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI
papers.abstract
Autoregressive Video-Diffusionsmodelle ermöglichen Streaming-Generierung und eröffnen damit die Tür zu Langform-Synthese, Video-Weltmodellen und interaktiven neuronalen Spiel-Engines. Allerdings werden ihre zentralen Attention-Schichten zur Laufzeit zu einem großen Engpass: Mit fortschreitender Generierung wächst der KV-Cache, was sowohl zu steigender Latenz als auch zu ansteigendem GPU-Speicherverbrauch führt, was wiederum den nutzbaren zeitlichen Kontext einschränkt und die Langreichweiteneinheitlichkeit beeinträchtigt. In dieser Arbeit untersuchen wir Redundanzen in der autoregressiven Video-Diffusion und identifizieren drei beständige Quellen: nahezu identische zwischengespeicherte Keys über Frames hinweg, sich langsam entwickelnde (überwiegend semantische) Queries/Keys, die viele Attention-Berechnungen redundant machen, und Cross-Attention bei langen Prompts, bei denen nur eine kleine Teilmenge von Tokens pro Frame relevant ist. Aufbauend auf diesen Beobachtungen schlagen wir einen einheitlichen, trainingsfreien Attention-Rahmen für autoregressive Diffusion vor: TempCache komprimiert den KV-Cache über temporale Korrespondenz, um das Cache-Wachstum zu begrenzen; AnnCA beschleunigt Cross-Attention, indem es frame-relevante Prompt-Tokens mittels schneller approximativer Nearest-Neighbor(ANN)-Zuordnung auswählt; und AnnSA verdünnt Self-Attention, indem jede Query auf semantisch passende Keys beschränkt wird, ebenfalls unter Verwendung eines leichtgewichtigen ANN. Zusammen reduzieren diese Module Aufmerksamkeits-, Rechen- und Speicheraufwand und sind kompatibel mit bestehenden autoregressiven Diffusions-Backbones und Weltmodellen. Experimente zeigen bis zu 5–10-fache End-to-End-Beschleunigungen bei nahezu identischer visueller Qualität und, entscheidend, stabiler Durchsatzrate sowie nahezu konstantem GPU-Spitzenspeicherverbrauch über lange Generierungssequenzen, während bisherige Methoden fortschreitend verlangsamen und unter steigendem Speicherverbrauch leiden.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.