MotiMotion: モーション制御による視覚的推論を用いた動画生成
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning
May 21, 2026
著者: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu
cs.AI
要旨
現在のモーション制御による画像から動画への生成モデルは、しばしば疎で不正確かつ因果的に不完全なユーザー提供の軌跡に厳格に従う。このような依存は、特に二次的な因果的帰結を見逃すことで、不自然または非妥当な結果を生み出すことが多い。この問題に対処するため、我々はモーション制御を「推論してから生成する」問題として再定式化する新しいフレームワーク MotiMotion を導入する。因果的に基づき常識に沿った相互作用を促進するために、学習不要の視覚言語推論器を活用し、主要軌跡の画像空間座標を洗練し、妥当な二次的モーションを想像(ハルシネーション)させる。さらにモーションの自然性を向上させるため、ガイダンス強度を調整する信頼度認識制御方式を提案し、高信頼度の計画にはモデルが厳密に従いつつ、低信頼度の入力下では内部生成事前分布を用いてアーティファクトを補正できるようにする。系統的評価を支援するため、モーションによって新たな事象が引き起こされる相互作用中心のシーンから成る新しい画像から動画へのベンチマーク MotiBench を厳選する。MotiBench における VLM ベースの評価と人間による評価の両方で、MotiMotion がより妥当な物体の挙動や相互作用を持つ動画を生成し、既存手法よりも好まれることが示された。
English
Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.