時間的キャッシュ圧縮とスパースアテンションを用いた高速自己回帰的ビデオ拡散と世界モデル
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
February 2, 2026
著者: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari
cs.AI
要旨
自己回帰型ビデオ拡散モデルはストリーミング生成を可能にし、長尺動画合成、ビデオ世界モデル、対話型ニューラルゲームエンジンへの道を開いた。しかし、推論時にはその中核をなすアテンション層が主要なボトルネックとなる:生成が進むにつれてKVキャッシュが肥大化し、レイテンシの増加とGPUメモリ使用量の急増を引き起こす。これにより、利用可能な時間的コンテキストが制限され、長距離の一貫性が損なわれる。本研究では、自己回帰型ビデオ拡散における冗長性を分析し、3つの持続的な要因を特定する:フレーム間でのほぼ重複したキャッシュキー、多くのアテンション計算を冗長化する緩やかに変化する(主に意味的な)クエリ/キー、およびフレームごとにごく一部のトークンのみが重要となる長いプロンプトに対するクロスアテンションである。これらの観察に基づき、我々は自己回帰型拡散モデルのための学習不要の統合アテンション基盤を提案する:TempCacheは時間的対応性によるKVキャッシュ圧縮でキャッシュ増大を抑制し、AnnCAは高速近似最近傍探索を用いたフレーム関連プロンプトトークンの選択でクロスアテンションを加速し、AnnSAは軽量な近似最近傍探索を用いて意味的に合致するキーのみにクエリを制限することでセルフアテンションを疎化する。これらのモジュールを組み合わせることで、アテンション、計算量、メモリ使用量を削減し、既存の自己回帰型拡散バックボーンや世界モデルと互換性を保つ。実験では、視覚品質をほぼ同等に保ちながら、エンドツーエンドで最大5~10倍の高速化を実証。特に重要なのは、長い生成過程においてスループットが安定し、ピークGPUメモリ使用量がほぼ一定に維持される点であり、従来手法では進行に伴う速度低下とメモリ使用量の増加が問題となっていた。
English
Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.