Кэширование с учетом движения для эффективного авторегрессионного генерации видео

Аннотация

Парадигмы авторегрессионной генерации видео демонстрируют теоретический потенциал для синтеза длинных видеороликов, однако их практическое применение ограничивается вычислительной нагрузкой последовательного итеративного денойзинга. Хотя стратегии повторного использования кэша могут ускорить генерацию за счёт пропуска избыточных шагов денойзинга, существующие методы полагаются на грубый пропуск на уровне чанков, который не учитывает тонкую динамику пикселей. Это упущение критично: пиксели с высоким движением требуют больше шагов денойзинга для предотвращения накопления ошибок, тогда как статические пиксели допускают агрессивный пропуск. Мы формализуем это наблюдение теоретически, связывая ошибки кэша с остаточной нестабильностью, и предлагаем MotionCache — механизм кэширования, учитывающий движение, который использует межкадровые различия в качестве легковесного прокси для пиксельных характеристик движения. MotionCache применяет стратегию «от грубого к точному»: начальная фаза прогрева устанавливает семантическую согласованность, после чего следует взвешенное по движению повторное использование кэша, динамически регулирующее частоту обновления для каждого токена. Экстенсивные эксперименты на передовых моделях, таких как SkyReels-V2 и MAGI-1, демонстрируют, что MotionCache достигает значительного ускорения в 6.28 и 1.64 раза соответственно, при этом эффективно сохраняя качество генерации (VBench: снижение на 1% и 0.01% соответственно). Код доступен по адресу https://github.com/ywlq/MotionCache.

English

Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.

Кэширование с учетом движения для эффективного авторегрессионного генерации видео

Motion-Aware Caching for Efficient Autoregressive Video Generation

Аннотация

Support