Bewegungsbewusstes Caching für effiziente autoregressive Videogenerierung
Motion-Aware Caching for Efficient Autoregressive Video Generation
May 3, 2026
Autoren: Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang
cs.AI
Zusammenfassung
Autoregressive Paradigmen zur Videogenerierung bieten theoretisch vielversprechende Ansätze für die Synthese langer Videos, doch ihre praktische Anwendung wird durch den rechenintensiven sequenziellen iterativen Denoisierungsprozess behindert. Während Cache-Wiederverwendungsstrategien die Generierung durch das Überspringen redundanter Denoisierungsschritte beschleunigen können, verlassen sich bestehende Methoden auf grobgranulares, chunk-basiertes Überspringen, das feingranulare Pixeldynamiken nicht erfasst. Diese Vernachlässigung ist kritisch: Pixel mit hoher Bewegung benötigen mehr Denoisierungsschritte, um Fehlerakkumulation zu verhindern, während statische Pixel aggressives Überspringen tolerieren. Wir formalisieren diese Erkenntnis theoretisch, indem wir Cache-Fehler mit residualer Instabilität verknüpfen, und schlagen MotionCache vor, einen bewegungssensitiven Cache-Rahmen, der Interframe-Differenzen als leichtgewichtigen Proxy für pixelbezogene Bewegungseigenschaften nutzt. MotionCache verwendet eine Coarse-to-fine-Strategie: Eine initiale Warm-up-Phase etabliert semantische Kohärenz, gefolgt von einer bewegungsgewichteten Cache-Wiederverwendung, die Update-Frequenzen pro Token dynamisch anpasst. Umfangreiche Experimente mit State-of-the-Art-Modellen wie SkyReels-V2 und MAGI-1 zeigen, dass MotionCache signifikante Beschleunigungen um das 6,28-fache bzw. 1,64-fache erreicht, bei gleichzeitig effektivem Erhalt der Generierungsqualität (VBench: 1% ↓ bzw. 0,01% ↓). Der Code ist verfügbar unter https://github.com/ywlq/MotionCache.
English
Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.