Bewustzijn van Beweging in Caching voor Efficiënte Autoregressieve Videogeneratie
Motion-Aware Caching for Efficient Autoregressive Video Generation
May 3, 2026
Auteurs: Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang
cs.AI
Samenvatting
Autoregressieve videogeneratieparadigma's bieden theoretisch potentieel voor lange videosynthese, maar hun praktische inzet wordt belemmerd door de computationele last van sequentiële iteratieve denoising. Hoewel cache-hergebruikstrategieën generatie kunnen versnellen door overbodige denoisingstappen over te slaan, vertrouwen bestaande methoden op grofkorrelige chunk-level overslaan dat geen fijnkorrelige pixeldynamiek vastlegt. Dit overzicht is cruciaal: pixels met hoge beweging vereisen meer denoisingstappen om foutaccumulatie te voorkomen, terwijl statische pixels agressief overslaan tolereren. We formaliseren dit inzicht theoretisch door cachefouten te koppelen aan residuele instabiliteit, en stellen MotionCache voor, een motion-aware cache-framework dat inter-frame verschillen benut als een lichtgewicht proxy voor pixel-level bewegingseigenschappen. MotionCache hanteert een coarse-to-fine strategie: een initiële warm-upfase stelt semantische coherentie vast, gevolgd door motion-weighted cache-hergebruik dat updatefrequenties per token dynamisch aanpast. Uitgebreide experimenten op state-of-the-art modellen zoals SkyReels-V2 en MAGI-1 tonen aan dat MotionCache significante versnellingen bereikt van respectievelijk 6,28× en 1,64×, terwijl de generatiekwaliteit effectief behouden blijft (VBench: respectievelijk 1%↓ en 0,01%↓). De code is beschikbaar op https://github.com/ywlq/MotionCache.
English
Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.