ChatPaper.aiChatPaper

Schnelle autoregressive Videodiffusion und Weltmodelle mit temporärer Cache-Kompression und sparsamer Aufmerksamkeit

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

February 2, 2026
papers.authors: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI

papers.abstract

Autoregressive Video-Diffusionsmodelle ermöglichen Streaming-Generierung und eröffnen damit die Tür zu Langform-Synthese, Video-Weltmodellen und interaktiven neuronalen Spiel-Engines. Allerdings werden ihre zentralen Attention-Schichten zur Laufzeit zu einem großen Engpass: Mit fortschreitender Generierung wächst der KV-Cache, was sowohl zu steigender Latenz als auch zu ansteigendem GPU-Speicherverbrauch führt, was wiederum den nutzbaren zeitlichen Kontext einschränkt und die Langreichweiteneinheitlichkeit beeinträchtigt. In dieser Arbeit untersuchen wir Redundanzen in der autoregressiven Video-Diffusion und identifizieren drei beständige Quellen: nahezu identische zwischengespeicherte Keys über Frames hinweg, sich langsam entwickelnde (überwiegend semantische) Queries/Keys, die viele Attention-Berechnungen redundant machen, und Cross-Attention bei langen Prompts, bei denen nur eine kleine Teilmenge von Tokens pro Frame relevant ist. Aufbauend auf diesen Beobachtungen schlagen wir einen einheitlichen, trainingsfreien Attention-Rahmen für autoregressive Diffusion vor: TempCache komprimiert den KV-Cache über temporale Korrespondenz, um das Cache-Wachstum zu begrenzen; AnnCA beschleunigt Cross-Attention, indem es frame-relevante Prompt-Tokens mittels schneller approximativer Nearest-Neighbor(ANN)-Zuordnung auswählt; und AnnSA verdünnt Self-Attention, indem jede Query auf semantisch passende Keys beschränkt wird, ebenfalls unter Verwendung eines leichtgewichtigen ANN. Zusammen reduzieren diese Module Aufmerksamkeits-, Rechen- und Speicheraufwand und sind kompatibel mit bestehenden autoregressiven Diffusions-Backbones und Weltmodellen. Experimente zeigen bis zu 5–10-fache End-to-End-Beschleunigungen bei nahezu identischer visueller Qualität und, entscheidend, stabiler Durchsatzrate sowie nahezu konstantem GPU-Spitzenspeicherverbrauch über lange Generierungssequenzen, während bisherige Methoden fortschreitend verlangsamen und unter steigendem Speicherverbrauch leiden.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.
PDF272February 7, 2026