Diffusione Video Autoregressiva Rapida e Modelli del Mondo con Compressione della Cache Temporale e Attenzione Sparsa

Abstract

I modelli di diffusione video autoregressivi abilitano la generazione in streaming, aprendo la porta alla sintesi di contenuti long-form, ai modelli di mondo video e ai motori di gioco neurali interattivi. Tuttavia, i loro strati di attenzione centrali diventano un collo di bottiglia principale durante l'inferenza: con il progredire della generazione, la cache dei valori-chiave (KV) cresce, causando sia una latenza crescente che un aumento progressivo della memoria GPU, che a sua volta limita il contesto temporale utilizzabile e compromette la coerenza a lungo raggio. In questo lavoro, studiamo la ridondanza nella diffusione video autoregressiva e identifichiamo tre fonti persistenti: chiavi nella cache quasi duplicate tra i frame, query/chiavi che evolvono lentamente (per lo più semantiche) che rendono ridondanti molti calcoli di attenzione, e la cross-attention su prompt lunghi dove solo un piccolo sottoinsieme di token è rilevante per frame. Basandoci su queste osservazioni, proponiamo un framework di attenzione unificato e senza addestramento per la diffusione autoregressiva: TempCache comprime la cache KV tramite corrispondenza temporale per limitarne la crescita; AnnCA accelera la cross-attention selezionando i token del prompt rilevanti per il frame utilizzando un'approssimazione veloce del nearest neighbor (ANN); e AnnSA sparsifica la self-attention limitando ogni query a chiavi semanticamente corrispondenti, anch'esso utilizzando un ANN leggero. Insieme, questi moduli riducono l'attenzione, il calcolo e la memoria e sono compatibili con le architetture di diffusione autoregressive esistenti e con i modelli di mondo. Gli esperimenti dimostrano accelerazioni end-to-end fino a 5-10 volte preservando una qualità visiva quasi identica e, crucialmente, mantenendo una velocità di elaborazione stabile e un utilizzo di picco della memoria GPU quasi costante durante generazioni lunghe, laddove i metodi precedenti rallentano progressivamente e soffrono di un utilizzo di memoria crescente.

English

Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.

Diffusione Video Autoregressiva Rapida e Modelli del Mondo con Compressione della Cache Temporale e Attenzione Sparsa

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Abstract

Support