Difusión Rápida de Video Autoregresiva y Modelos del Mundo con Compresión de Caché Temporal y Atención Dispersa
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
February 2, 2026
Autores: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI
Resumen
Los modelos de difusión de video autorregresivos permiten la generación en flujo continuo, abriendo la puerta a la síntesis de formato largo, modelos de mundo de video y motores de juego neuronal interactivos. Sin embargo, sus capas de atención central se convierten en un cuello de botella importante durante la inferencia: a medida que avanza la generación, la caché de claves-valores (KV) crece, causando tanto una latencia creciente como un aumento progresivo de la memoria de la GPU, lo que a su vez restringe el contexto temporal utilizable y perjudica la coherencia a largo alcance. En este trabajo, estudiamos la redundancia en la difusión de video autorregresiva e identificamos tres fuentes persistentes: claves en caché casi duplicadas entre fotogramas, consultas/claves de evolución lenta (en gran parte semánticas) que vuelven redundantes muchos cálculos de atención, y la atención cruzada sobre prompts largos donde solo un pequeño subconjunto de tokens es relevante por fotograma. Basándonos en estas observaciones, proponemos un marco de atención unificado, sin necesidad de entrenamiento, para la difusión autorregresiva: TempCache comprime la caché KV mediante correspondencia temporal para limitar su crecimiento; AnnCA acelera la atención cruzada seleccionando tokens del prompt relevantes para el fotograma usando emparejamiento aproximado de vecinos más cercanos (ANN) rápido; y AnnSA esparsifica la auto-atención restringiendo cada consulta a claves con coincidencia semántica, también usando un ANN ligero. Juntos, estos módulos reducen la atención, el cómputo y la memoria, y son compatibles con arquitecturas de difusión autorregresivas y modelos de mundo existentes. Los experimentos demuestran aceleraciones de extremo a extremo de hasta x5--x10 mientras se preserva una calidad visual casi idéntica y, crucialmente, se mantiene un rendimiento estable y un uso de memoria máxima de GPU casi constante durante generaciones largas, donde los métodos anteriores se ralentizan progresivamente y sufren de un uso de memoria creciente.
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.