Diffusion Vidéo Autoregressive Rapide et Modèles du Monde avec Compression du Cache Temporel et Attention Sparse

papers.abstract

Les modèles de diffusion vidéo autorégressifs permettent une génération en flux continu, ouvrant la voie à la synthèse de longs contenus, aux modèles de monde vidéo et aux moteurs de jeux neuronaux interactifs. Cependant, leurs couches d'attention centrales deviennent un goulot d'étranglement majeur lors de l'inférence : au fur et à mesure de la génération, le cache des clés et valeurs (KV) s'agrandit, entraînant à la fois une latence croissante et une utilisation mémoire GPU escaladante, ce qui restreint le contexte temporel utilisable et nuit à la cohérence à long terme. Dans ce travail, nous étudions la redondance dans la diffusion vidéo autorégressive et identifions trois sources persistantes : des clés en cache quasi-dupliquées entre les frames, des requêtes/clés à évolution lente (largement sémantiques) qui rendent de nombreux calculs d'attention redondants, et l'attention croisée sur de longs prompts où seul un petit sous-ensemble de tokens importe par frame. En nous appuyant sur ces observations, nous proposons un framework d’attention unifié et sans entraînement pour la diffusion autorégressive : TempCache compresse le cache KV via la correspondance temporelle pour limiter sa croissance ; AnnCA accélère l'attention croisée en sélectionnant les tokens du prompt pertinents pour la frame via un appariement approximatif par plus proches voisins (ANN) rapide ; et AnnSA sparse l'auto-attention en restreignant chaque requête aux clés sémantiquement correspondantes, en utilisant également un ANN léger. Ensemble, ces modules réduisent l'attention, le calcul et la mémoire, et sont compatibles avec les architectures de diffusion autorégressive et les modèles de monde existants. Les expériences démontrent des accélérations de bout en bout allant jusqu'à x5–x10 tout en préservant une qualité visuelle quasi identique et, crucialement, en maintenant un débit stable et une utilisation mémoire GPU de pointe presque constante sur de longues séquences, là où les méthodes précédentes ralentissent progressivement et souffrent d'une utilisation mémoire croissante.

English

Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.

Diffusion Vidéo Autoregressive Rapide et Modèles du Monde avec Compression du Cache Temporel et Attention Sparse

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

papers.abstract

Support