動画生成におけるモーション属性推定
Motion Attribution for Video Generation
January 13, 2026
著者: Xindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine
cs.AI
要旨
動画生成モデルの急速な進展にもかかわらず、データが動きに与える影響に関する理解は不十分である。本論文では、Motive(MOTIon attribution for Video gEneration)を提案する。これは、動画に特化した勾配ベースのデータ帰属枠組みであり、現代の大規模で高品質な動画データセットとモデルにスケーラブルに適用可能である。本手法を用いて、ファインチューニングにおける各クリップが時間的ダイナミクスを改善または悪化させる要因を分析する。Motiveは、動画加重損失マスクを通じて静的見た目から時間的ダイナミクスを分離し、効率的かつスケーラブルな動画特有の影響度計算を実現する。テキストから動画を生成するモデルにおいて、Motiveは動きに強く影響するクリップを特定し、時間的一貫性と物理的妥当性を向上させるデータキュレーションを導く。Motiveで選別された高影響度データを用いることで、提案手法はVBenchにおいて動きの滑らかさと動的度の両方を改善し、事前学習済みベースモデルと比較して74.1%の人間評価優位率を達成した。知る限り、動画生成モデルにおいて視覚的外観ではなく動きに着目した帰属分析を実現し、それを用いてファインチューニングデータを選別する初めての枠組みである。
English
Despite the rapid progress of video generation models, the role of data in influencing motion is poorly understood. We present Motive (MOTIon attribution for Video gEneration), a motion-centric, gradient-based data attribution framework that scales to modern, large, high-quality video datasets and models. We use this to study which fine-tuning clips improve or degrade temporal dynamics. Motive isolates temporal dynamics from static appearance via motion-weighted loss masks, yielding efficient and scalable motion-specific influence computation. On text-to-video models, Motive identifies clips that strongly affect motion and guides data curation that improves temporal consistency and physical plausibility. With Motive-selected high-influence data, our method improves both motion smoothness and dynamic degree on VBench, achieving a 74.1% human preference win rate compared with the pretrained base model. To our knowledge, this is the first framework to attribute motion rather than visual appearance in video generative models and to use it to curate fine-tuning data.