MotionEdit: モーション中心の画像編集のベンチマークと学習
MotionEdit: Benchmarking and Learning Motion-Centric Image Editing
December 11, 2025
著者: Yixin Wan, Lei Ke, Wenhao Yu, Kai-Wei Chang, Dong Yu
cs.AI
要旨
MotionEditを紹介する。これはモーション中心の画像編集、すなわち被写体の動作や相互作用を変更しつつ、アイデンティティ、構造、物理的妥当性を保持するタスクのための新規データセットである。静的な外観変化に焦点を当てる、あるましくは疎で低品質なモーション編集のみを含む既存の画像編集データセットとは異なり、MotionEditは、連続ビデオから抽出・検証された現実的なモーション変換を描写する高精細な画像ペアを提供する。この新たなタスクは科学的に挑戦的であるだけでなく、フレーム制御されたビデオ合成やアニメーションなどの下流アプリケーションを支える実用的にも重要な意義を持つ。
この新規タスクにおけるモデル性能を評価するため、MotionEdit-Benchを導入する。このベンチマークは、モーション中心の編集でモデルに挑戦し、生成的、識別的、選好ベースの指標でモデル性能を測定する。ベンチマーク結果は、モーション編集が既存の最先端拡散ベース編集モデルにとって依然として極めて困難であることを明らかにする。この課題に対処するため、MotionNFT(Motion-guided Negative-aware Fine Tuning)を提案する。これは学習後フレームワークであり、入力画像とモデル編集画像間のモーションフローがグランドトゥルースのモーションにどれだけ合致するかに基づいてモーション整合性報酬を計算し、正確なモーション変換へとモデルを導く。FLUX.1 KontextおよびQwen-Image-Editにおける大規模実験により、MotionNFTが基礎モデルの編集品質とモーション忠実度を、一般的な編集能力を損なうことなく、モーション編集タスクで一貫して向上させることを実証し、その有効性を示す。
English
We introduce MotionEdit, a novel dataset for motion-centric image editing-the task of modifying subject actions and interactions while preserving identity, structure, and physical plausibility. Unlike existing image editing datasets that focus on static appearance changes or contain only sparse, low-quality motion edits, MotionEdit provides high-fidelity image pairs depicting realistic motion transformations extracted and verified from continuous videos. This new task is not only scientifically challenging but also practically significant, powering downstream applications such as frame-controlled video synthesis and animation.
To evaluate model performance on the novel task, we introduce MotionEdit-Bench, a benchmark that challenges models on motion-centric edits and measures model performance with generative, discriminative, and preference-based metrics. Benchmark results reveal that motion editing remains highly challenging for existing state-of-the-art diffusion-based editing models. To address this gap, we propose MotionNFT (Motion-guided Negative-aware Fine Tuning), a post-training framework that computes motion alignment rewards based on how well the motion flow between input and model-edited images matches the ground-truth motion, guiding models toward accurate motion transformations. Extensive experiments on FLUX.1 Kontext and Qwen-Image-Edit show that MotionNFT consistently improves editing quality and motion fidelity of both base models on the motion editing task without sacrificing general editing ability, demonstrating its effectiveness.