ChatPaper.aiChatPaper

タイム・トゥ・ムーブ:デュアルクロックデノイジングによるトレーニング不要のモーション制御ビデオ生成

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

November 9, 2025
著者: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI

要旨

拡散モデルに基づく動画生成は現実的な映像を生成可能だが、既存の画像・テキスト条件付けでは精密な動きの制御が困難である。従来の動作条件付き合成手法は、計算コストが高く適用範囲が限定されるモデル固有のファインチューニングを要する場合が多かった。本研究では、画像から動画への拡散モデル(I2V)において、訓練不要で即応可能な動作・外観制御フレームワーク「Time-to-Move(TTM)」を提案する。核心となる着想は、切り貼り操作や深度ベース再投影などユーザーフレンドリーな操作で得られる大まかな参照アニメーションを活用することにある。SDEditが画像編集に粗いレイアウト手がかりを利用する手法に着想を得て、我々はこうした粗いアニメーションを動きの手がかりとして扱い、そのメカニズムを動画領域に適応させる。画像条件付けで外観を保持しつつ、領域依存的な戦略「デュアルクロックデノイジング」を導入。動作指定領域では強固な整合性を強制し、他の領域では柔軟性を許容することで、ユーザ意図への忠実性と自然な動態のバランスを実現する。このサンプリング過程の軽量な修正は、追加の訓練や実行時コストを伴わず、あらゆる基盤モデルと互換性がある。物体動作とカメラ動作のベンチマークによる大規模実験により、TTMが実写性と動作制御の面で訓練ベースの既存手法に匹敵または凌駕することを示す。さらにTTMは、ピクセルレベル条件付けによる精密な外観制御という独自の機能を実現し、テキストプロンプトのみの限界を超える。動画例とコードはプロジェクトページ(https://time-to-move.github.io/)で公開中。
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
PDF532December 1, 2025