MotionStream: インタラクティブなモーション制御によるリアルタイムビデオ生成
MotionStream: Real-Time Video Generation with Interactive Motion Controls
November 3, 2025
著者: Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang
cs.AI
要旨
現在のモーション条件付き動画生成手法は、許容できない遅延(1動画あたり数分)と、リアルタイム相互作用を妨げる非因果的処理に悩まされている。本論文では、単一GPU上で最大29FPSのストリーミング生成を実現し、サブ秒レベルの遅延を可能にするMotionStreamを提案する。我々のアプローチは、まずテキストから動画へのモデルをモーション制御で拡張することから始める。これにより、大域的なテキストプロンプトと局所的なモーションガイダンスに従う高品質な動画を生成するが、オンザフライでの推論は行わない。そこで、双方向性の教師モデルを、Distribution Matching Distillationを伴うSelf Forcingによって因果的な生徒モデルに蒸留し、リアルタイムストリーミング推論を可能にする。長く、潜在的に無限の時間軸を持つ動画を生成する際には、いくつかの重要な課題が生じる:(1) 有限長で学習したものから無限の時間軸への外挿における領域ギャップの解消、(2) 誤差蓄積を防ぐことによる高品質性の維持、(3) 増大するコンテキストウィンドウに伴う計算コストの増加を招くことなく、高速な推論を維持すること。我々のアプローチの鍵は、注意深く設計されたスライディングウィンドウ因果的アテンションと、アテンションシンクを組み合わせることである。学習時にアテンションシンクとKVキャッシュのローリングを伴うセルフロールアウトを組み込むことで、固定サイズのコンテキストウィンドウを用いて推論時の外挿を適切にシミュレートし、任意の長さの動画を一定速度で生成することを可能にする。提案モデルは、モーション追従性と動画品質においてstate-of-the-artの結果を達成しつつ、生成速度を2桁向上させ、無限長ストリーミングを独自に実現する。MotionStreamにより、ユーザーは軌道を描画し、カメラを制御し、またはモーションを転送して、結果がリアルタイムに展開するのを確認でき、真にインタラクティブな体験を提供する。
English
Current motion-conditioned video generation methods suffer from prohibitive
latency (minutes per video) and non-causal processing that prevents real-time
interaction. We present MotionStream, enabling sub-second latency with up to 29
FPS streaming generation on a single GPU. Our approach begins by augmenting a
text-to-video model with motion control, which generates high-quality videos
that adhere to the global text prompt and local motion guidance, but does not
perform inference on the fly. As such, we distill this bidirectional teacher
into a causal student through Self Forcing with Distribution Matching
Distillation, enabling real-time streaming inference. Several key challenges
arise when generating videos of long, potentially infinite time-horizons: (1)
bridging the domain gap from training on finite length and extrapolating to
infinite horizons, (2) sustaining high quality by preventing error
accumulation, and (3) maintaining fast inference, without incurring growth in
computational cost due to increasing context windows. A key to our approach is
introducing carefully designed sliding-window causal attention, combined with
attention sinks. By incorporating self-rollout with attention sinks and KV
cache rolling during training, we properly simulate inference-time
extrapolations with a fixed context window, enabling constant-speed generation
of arbitrarily long videos. Our models achieve state-of-the-art results in
motion following and video quality while being two orders of magnitude faster,
uniquely enabling infinite-length streaming. With MotionStream, users can paint
trajectories, control cameras, or transfer motion, and see results unfold in
real-time, delivering a truly interactive experience.