ChatPaper.aiChatPaper

MotionPro : Un contrôleur de mouvement précis pour la génération d'images vers vidéo

MotionPro: A Precise Motion Controller for Image-to-Video Generation

May 26, 2025
Auteurs: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei
cs.AI

Résumé

L'animation d'images avec un contrôle interactif du mouvement a gagné en popularité pour la génération d'image-à-vidéo (I2V). Les approches modernes reposent généralement sur de larges noyaux gaussiens pour étendre les trajectoires de mouvement comme condition, sans définir explicitement la région de mouvement, ce qui entraîne un contrôle grossier du mouvement et échoue à dissocier le mouvement de l'objet et celui de la caméra. Pour remédier à cela, nous présentons MotionPro, un contrôleur de mouvement précis qui exploite de manière novatrice des trajectoires par région et un masque de mouvement pour réguler la synthèse de mouvement à granularité fine et identifier la catégorie de mouvement cible (c'est-à-dire, le mouvement de l'objet ou de la caméra), respectivement. Techniquement, MotionPro estime d'abord les cartes de flux sur chaque vidéo d'entraînement via un modèle de suivi, puis échantillonne les trajectoires par région pour simuler un scénario d'inférence. Au lieu d'étendre le flux à travers de larges noyaux gaussiens, notre approche de trajectoire par région permet un contrôle plus précis en utilisant directement les trajectoires au sein des régions locales, caractérisant ainsi efficacement les mouvements à granularité fine. Un masque de mouvement est simultanément dérivé des cartes de flux prédites pour capturer la dynamique holistique du mouvement des régions. Pour viser un contrôle naturel du mouvement, MotionPro renforce en outre le débruitage vidéo en incorporant à la fois les trajectoires par région et le masque de mouvement via une modulation de caractéristiques. Plus remarquablement, nous construisons méticuleusement un benchmark, c'est-à-dire MC-Bench, avec 1,1K paires image-trajectoire annotées par l'utilisateur, pour l'évaluation du contrôle de mouvement I2V à la fois à granularité fine et au niveau objet. Des expériences approfondies menées sur WebVid-10M et MC-Bench démontrent l'efficacité de MotionPro. Veuillez consulter notre page de projet pour plus de résultats : https://zhw-zhang.github.io/MotionPro-page/.
English
Animating images with interactive motion control has garnered popularity for image-to-video (I2V) generation. Modern approaches typically rely on large Gaussian kernels to extend motion trajectories as condition without explicitly defining movement region, leading to coarse motion control and failing to disentangle object and camera moving. To alleviate these, we present MotionPro, a precise motion controller that novelly leverages region-wise trajectory and motion mask to regulate fine-grained motion synthesis and identify target motion category (i.e., object or camera moving), respectively. Technically, MotionPro first estimates the flow maps on each training video via a tracking model, and then samples the region-wise trajectories to simulate inference scenario. Instead of extending flow through large Gaussian kernels, our region-wise trajectory approach enables more precise control by directly utilizing trajectories within local regions, thereby effectively characterizing fine-grained movements. A motion mask is simultaneously derived from the predicted flow maps to capture the holistic motion dynamics of the movement regions. To pursue natural motion control, MotionPro further strengthens video denoising by incorporating both region-wise trajectories and motion mask through feature modulation. More remarkably, we meticulously construct a benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for the evaluation of both fine-grained and object-level I2V motion control. Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the effectiveness of MotionPro. Please refer to our project page for more results: https://zhw-zhang.github.io/MotionPro-page/.

Summary

AI-Generated Summary

PDF193May 28, 2025