Mise en cache sensible au mouvement pour une génération vidéo autorégressive efficace

Résumé

Les paradigmes de génération vidéo autoregressive offrent une promesse théorique pour la synthèse de vidéos longues, mais leur déploiement pratique est entravé par la charge computationnelle du débruitage itératif séquentiel. Bien que les stratégies de réutilisation du cache puissent accélérer la génération en sautant les étapes de débruitage redondantes, les méthodes existantes reposent sur un saut grossier au niveau des segments, ce qui ne permet pas de capturer la dynamique fine au niveau des pixels. Cette lacune est cruciale : les pixels à mouvement élevé nécessitent plus d'étapes de débruitage pour éviter l'accumulation d'erreurs, tandis que les pixels statiques tolèrent un saut agressif. Nous formalisons théoriquement cette intuition en reliant les erreurs de cache à l'instabilité résiduelle, et proposons MotionCache, un framework de cache sensible au mouvement qui exploite les différences inter-images comme proxy léger des caractéristiques de mouvement au niveau pixel. MotionCache utilise une stratégie du grossier au fin : une phase d'initialisation établit la cohérence sémantique, suivie d'une réutilisation du cache pondérée par le mouvement qui ajuste dynamiquement les fréquences de mise à jour par token. Des expériences approfondies sur des modèles de pointe comme SkyReels-V2 et MAGI-1 démontrent que MotionCache atteint des accélérations significatives de respectivement 6,28x et 1,64x, tout en préservant efficacement la qualité de génération (VBench : baisse de 1% et de 0,01% respectivement). Le code est disponible à l'adresse https://github.com/ywlq/MotionCache.

English

Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.

Mise en cache sensible au mouvement pour une génération vidéo autorégressive efficace

Motion-Aware Caching for Efficient Autoregressive Video Generation

Résumé

Support