ChatPaper.aiChatPaper

MotionPro: Een Nauwkeurige Bewegingscontroller voor Beeld-naar-Video Generatie

MotionPro: A Precise Motion Controller for Image-to-Video Generation

May 26, 2025
Auteurs: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei
cs.AI

Samenvatting

Het animeren van afbeeldingen met interactieve bewegingscontrole heeft populariteit gewonnen voor beeld-naar-video (I2V) generatie. Moderne benaderingen vertrouwen doorgaans op grote Gaussische kernen om bewegingsbanen als voorwaarde uit te breiden zonder het bewegingsgebied expliciet te definiëren, wat leidt tot grove bewegingscontrole en het niet kunnen onderscheiden van object- en camerabewegingen. Om deze problemen te verlichten, presenteren we MotionPro, een precieze bewegingscontroller die op een nieuwe manier gebruikmaakt van regiogewijs trajecten en bewegingsmaskers om respectievelijk fijnmazige bewegingssynthese te reguleren en de doelbewegingscategorie (d.w.z. object- of camerabeweging) te identificeren. Technisch gezien schat MotionPro eerst de stroomkaarten van elke trainingsvideo in via een trackingmodel en bemonstert vervolgens de regiogewijs trajecten om een inferentiescenario te simuleren. In plaats van de stroom uit te breiden via grote Gaussische kernen, maakt onze regiogewijs trajectbenadering preciezere controle mogelijk door direct gebruik te maken van trajecten binnen lokale regio's, waardoor fijnmazige bewegingen effectief worden gekarakteriseerd. Een bewegingsmasker wordt gelijktijdig afgeleid van de voorspelde stroomkaarten om de holistische bewegingsdynamiek van de bewegingsregio's vast te leggen. Om natuurlijke bewegingscontrole na te streven, versterkt MotionPro verder de videoruisonderdrukking door zowel regiogewijs trajecten als bewegingsmaskers te integreren via featuremodulatie. Opmerkelijker is dat we zorgvuldig een benchmark hebben geconstrueerd, namelijk MC-Bench, met 1.1K door gebruikers geannoteerde afbeelding-trajectparen, voor de evaluatie van zowel fijnmazige als objectniveau I2V-bewegingscontrole. Uitgebreide experimenten uitgevoerd op WebVid-10M en MC-Bench demonstreren de effectiviteit van MotionPro. Raadpleeg onze projectpagina voor meer resultaten: https://zhw-zhang.github.io/MotionPro-page/.
English
Animating images with interactive motion control has garnered popularity for image-to-video (I2V) generation. Modern approaches typically rely on large Gaussian kernels to extend motion trajectories as condition without explicitly defining movement region, leading to coarse motion control and failing to disentangle object and camera moving. To alleviate these, we present MotionPro, a precise motion controller that novelly leverages region-wise trajectory and motion mask to regulate fine-grained motion synthesis and identify target motion category (i.e., object or camera moving), respectively. Technically, MotionPro first estimates the flow maps on each training video via a tracking model, and then samples the region-wise trajectories to simulate inference scenario. Instead of extending flow through large Gaussian kernels, our region-wise trajectory approach enables more precise control by directly utilizing trajectories within local regions, thereby effectively characterizing fine-grained movements. A motion mask is simultaneously derived from the predicted flow maps to capture the holistic motion dynamics of the movement regions. To pursue natural motion control, MotionPro further strengthens video denoising by incorporating both region-wise trajectories and motion mask through feature modulation. More remarkably, we meticulously construct a benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for the evaluation of both fine-grained and object-level I2V motion control. Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the effectiveness of MotionPro. Please refer to our project page for more results: https://zhw-zhang.github.io/MotionPro-page/.
PDF203May 28, 2025