効率的な自己回帰的ビデオ生成のための動き対応キャッシング
Motion-Aware Caching for Efficient Autoregressive Video Generation
May 3, 2026
著者: Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang
cs.AI
要旨
オートリグレッシブ動画生成パラダイムは長尺動画合成において理論的な可能性を秘めるが、逐次的な反復的デノイジングの計算負荷により実用展開が妨げられている。キャッシュ再利用戦略は冗長なデノイジングステップをスキップすることで生成を加速できるが、既存手法は粗粒度なチャンク単位のスキップに依存しており、細粒度なピクセルダイナミクスを捉えられない。この見落としは致命的である:動きの激しいピクセルは誤差蓄積を防ぐためより多くのデノイジングステップを必要とする一方、静止ピクセルは積極的なスキップが許容される。本論文ではこの知見を、キャッシュ誤差と残差不安定性の関連性から理論的に形式化し、フレーム間差分をピクセルレベル運動特性の軽量代理指標として活用するモーション認識キャッシュフレームワーク「MotionCache」を提案する。MotionCacheは段階的細粒度化戦略を採用する:初期ウォームアップフェーズで意味的コヒーレンスを確立した後、トークン毎の更新頻度を動的に調整するモーション重み付きキャッシュ再利用を実行する。SkyReels-V2やMAGI-1などの最新モデルを用いた大規模実験により、MotionCacheがそれぞれ6.28倍、1.64倍の大幅な高速化を達成しつつ、生成品質を効果的に維持(VBench指標でそれぞれ1%低下、0.01%低下)できることを実証した。コードはhttps://github.com/ywlq/MotionCacheで公開されている。
English
Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.