효율적인 자기회귀 비디오 생성을 위한 동작 인식 캐싱
Motion-Aware Caching for Efficient Autoregressive Video Generation
May 3, 2026
저자: Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang
cs.AI
초록
자기회귀 비디오 생성 패러다임은 이론적으로 장편 비디오 합성에 유망하지만, 순차적인 반복적 노이즈 제거의 계산 부담으로 실제 적용에는 어려움을 겪고 있습니다. 캐시 재사용 전략은 중복 노이즈 제거 단계를 건너뛰어 생성 속도를 높일 수 있지만, 기존 방법은 미세한 픽셀 동역학을 포착하지 못하는 coarse-grained 청크 수준 건너뛰기에 의존합니다. 이러한 간과는 치명적입니다: 움직임이 큰 픽셀은 오류 누적을 방지하기 위해 더 많은 노이즈 제거 단계가 필요하지만, 정적 픽셀은 aggressive한 건너뛰기를 허용합니다. 우리는 캐시 오류와 residual 불안정성을 이론적으로 연결하여 이 통찰력을 정형화하고, 프레임 간 차이를 픽셀 수준 motion 특성의 경량 대리 지표로 활용하는 motion-aware 캐시 프레임워크인 MotionCache를 제안합니다. MotionCache는 coarse-to-fine 전략을 사용합니다: 초기 준비 단계에서 의미론적 일관성을 확립한 후, 토큰별 업데이트 빈도를 동적으로 조정하는 motion-weighted 캐시 재사용이 이어집니다. SkyReels-V2 및 MAGI-1과 같은 최첨단 모델에 대한 광범위한 실험을 통해 MotionCache가 각각 6.28배 및 1.64배의 상당한 속도 향상을 달성하면서도 생성 품질을 효과적으로 보존함(VBench: 각각 1%↓ 및 0.01%↓)을 입증했습니다. 코드는 https://github.com/ywlq/MotionCache에서 확인할 수 있습니다.
English
Autoregressive video generation paradigms offer theoretical promise for long video synthesis, yet their practical deployment is hindered by the computational burden of sequential iterative denoising. While cache reuse strategies can accelerate generation by skipping redundant denoising steps, existing methods rely on coarse-grained chunk-level skipping that fails to capture fine-grained pixel dynamics. This oversight is critical: pixels with high motion require more denoising steps to prevent error accumulation, while static pixels tolerate aggressive skipping. We formalize this insight theoretically by linking cache errors to residual instability, and propose MotionCache, a motion-aware cache framework that exploits inter-frame differences as a lightweight proxy for pixel-level motion characteristics. MotionCache employs a coarse-to-fine strategy: an initial warm-up phase establishes semantic coherence, followed by motion-weighted cache reuse that dynamically adjusts update frequencies per token. Extensive experiments on state-of-the-art models like SkyReels-V2 and MAGI-1 demonstrate that MotionCache achieves significant speedups of 6.28times and 1.64times respectively, while effectively preserving generation quality (VBench: 1%downarrow and 0.01%downarrow respectively). The code is available at https://github.com/ywlq/MotionCache.