Almacenamiento en Caché Consciente del Movimiento para la Generación Eficiente de Vídeos Autoregresivos
Motion-Aware Caching for Efficient Autoregressive Video Generation
May 3, 2026
Autores: Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang
cs.AI
Resumen
Los paradigmas de generación de vídeo autorregresivos ofrecen una promesa teórica para la síntesis de vídeos largos, pero su despliegue práctico se ve obstaculizado por la carga computacional de la eliminación iterativa secuencial de ruido. Si bien las estrategias de reutilización de caché pueden acelerar la generación al omitir pasos redundantes de eliminación de ruido, los métodos existentes se basan en saltos de granularidad gruesa a nivel de fragmento que no logran capturar la dinámica de píxeles de granularidad fina. Esta omisión es crítica: los píxeles con alto movimiento requieren más pasos de eliminación de ruido para evitar la acumulación de errores, mientras que los píxeles estáticos toleran saltos agresivos. Formalizamos esta idea teóricamente vinculando los errores de caché con la inestabilidad residual, y proponemos MotionCache, un marco de caché consciente del movimiento que aprovecha las diferencias entre fotogramas como un proxy ligero para las características de movimiento a nivel de píxel. MotionCache emplea una estrategia de coarse-to-fine: una fase inicial de calentamiento establece coherencia semántica, seguida de una reutilización de caché ponderada por movimiento que ajusta dinámicamente las frecuencias de actualización por token. Experimentos exhaustivos en modelos de vanguardia como SkyReels-V2 y MAGI-1 demuestran que MotionCache logra aceleraciones significativas de 6.28x y 1.64x respectivamente, preservando efectivamente la calidad de generación (VBench: -1% y -0.01% respectivamente). El código está disponible en https://github.com/ywlq/MotionCache.
English
Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.