ChatPaper.aiChatPaper

VideoSSM:ハイブリッド状態空間メモリを用いた自己回帰的長尺動画生成

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

December 4, 2025
著者: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI

要旨

自己回帰(AR)拡散モデルは、フレームを因果的に生成することでストリーミング・対話的な長尺動画生成を可能にするが、分単位の時間軸において一貫性を維持することは、誤差の蓄積、モーションドリフト、コンテンツの反復により依然として困難である。我々はこの問題を記憶の観点から捉え、動画合成を、短期的・長期的な文脈の協調を必要とする反復的な力学過程として扱う。本論文では、AR拡散とハイブリッド状態空間メモリを統合した長尺動画モデル「VideoSSM」を提案する。状態空間モデル(SSM)はシーケンス全体にわたるシーン動態の進化するグローバルメモリとして機能し、コンテキストウィンドウはモーションキューと細部の情報のためのローカルメモリを提供する。このハイブリッド設計は、固定化・反復的なパターンなくグローバルな一貫性を保持し、プロンプト適応的な相互作用をサポートし、シーケンス長に対して線形時間でスケールする。短距離・長距離ベンチマークによる実験では、特に分単位の時間軸において、自己回帰型動画生成器の中で最先端の時間的一貫性とモーション安定性を示し、コンテンツの多様性と対話的なプロンプトベース制御を実現することで、スケーラブルで記憶を考慮した長尺動画生成の枠組みを確立する。
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.
PDF32December 13, 2025