MotionPro: 画像から動画生成のための精密モーションコントローラ
MotionPro: A Precise Motion Controller for Image-to-Video Generation
May 26, 2025
著者: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei
cs.AI
要旨
インタラクティブなモーション制御による画像アニメーションは、画像から動画(I2V)生成において人気を集めています。現代のアプローチでは、通常、大規模なガウシアンカーネルに依存してモーショントラジェクトリを条件として拡張し、移動領域を明示的に定義せず、粗いモーション制御や物体とカメラの動きの分離に失敗しています。これらの問題を緩和するため、我々はMotionProを提案します。これは、領域ごとのトラジェクトリとモーションマスクを新たに活用し、それぞれ細かなモーション合成を制御し、対象のモーションカテゴリ(物体またはカメラの動き)を識別する精密なモーションコントローラです。技術的には、MotionProはまず追跡モデルを使用して各トレーニングビデオのフローマップを推定し、その後、領域ごとのトラジェクトリをサンプリングして推論シナリオをシミュレートします。大規模なガウシアンカーネルを通じてフローを拡張する代わりに、我々の領域ごとのトラジェクトリアプローチは、局所領域内のトラジェクトリを直接利用することで、より精密な制御を可能にし、細かな動きを効果的に特徴付けます。同時に、予測されたフローマップからモーションマスクを導出し、移動領域の全体的なモーションダイナミクスを捕捉します。自然なモーション制御を追求するため、MotionProは、領域ごとのトラジェクトリとモーションマスクを特徴変調に組み込むことで、ビデオのノイズ除去をさらに強化します。さらに注目すべきは、1.1Kのユーザー注釈付き画像-トラジェクトリペアからなるベンチマーク、MC-Benchを慎重に構築し、細かなレベルと物体レベルのI2Vモーション制御の評価を行ったことです。WebVid-10MとMC-Benchで実施された広範な実験は、MotionProの有効性を実証しています。詳細な結果については、プロジェクトページをご覧ください:https://zhw-zhang.github.io/MotionPro-page/。
English
Animating images with interactive motion control has garnered popularity for
image-to-video (I2V) generation. Modern approaches typically rely on large
Gaussian kernels to extend motion trajectories as condition without explicitly
defining movement region, leading to coarse motion control and failing to
disentangle object and camera moving. To alleviate these, we present MotionPro,
a precise motion controller that novelly leverages region-wise trajectory and
motion mask to regulate fine-grained motion synthesis and identify target
motion category (i.e., object or camera moving), respectively. Technically,
MotionPro first estimates the flow maps on each training video via a tracking
model, and then samples the region-wise trajectories to simulate inference
scenario. Instead of extending flow through large Gaussian kernels, our
region-wise trajectory approach enables more precise control by directly
utilizing trajectories within local regions, thereby effectively characterizing
fine-grained movements. A motion mask is simultaneously derived from the
predicted flow maps to capture the holistic motion dynamics of the movement
regions. To pursue natural motion control, MotionPro further strengthens video
denoising by incorporating both region-wise trajectories and motion mask
through feature modulation. More remarkably, we meticulously construct a
benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for
the evaluation of both fine-grained and object-level I2V motion control.
Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the
effectiveness of MotionPro. Please refer to our project page for more results:
https://zhw-zhang.github.io/MotionPro-page/.Summary
AI-Generated Summary