MotionPro: Un Controlador de Movimiento Preciso para la Generación de Imagen a Video
MotionPro: A Precise Motion Controller for Image-to-Video Generation
May 26, 2025
Autores: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei
cs.AI
Resumen
La animación de imágenes con control interactivo del movimiento ha ganado popularidad en la generación de imagen a video (I2V). Los enfoques modernos suelen depender de grandes núcleos gaussianos para extender las trayectorias de movimiento como condición sin definir explícitamente la región de movimiento, lo que resulta en un control de movimiento poco preciso y en la incapacidad de separar el movimiento del objeto y de la cámara. Para abordar estos problemas, presentamos MotionPro, un controlador de movimiento preciso que utiliza de manera novedosa trayectorias por región y una máscara de movimiento para regular la síntesis de movimiento de grano fino e identificar la categoría de movimiento objetivo (es decir, si el objeto o la cámara se mueven), respectivamente. Técnicamente, MotionPro primero estima los mapas de flujo en cada video de entrenamiento mediante un modelo de seguimiento, y luego muestrea las trayectorias por región para simular el escenario de inferencia. En lugar de extender el flujo a través de grandes núcleos gaussianos, nuestro enfoque de trayectorias por región permite un control más preciso al utilizar directamente las trayectorias dentro de regiones locales, caracterizando así de manera efectiva los movimientos de grano fino. Simultáneamente, se deriva una máscara de movimiento a partir de los mapas de flujo predichos para capturar la dinámica holística del movimiento en las regiones. Para lograr un control de movimiento natural, MotionPro refuerza la eliminación de ruido en los videos incorporando tanto las trayectorias por región como la máscara de movimiento a través de la modulación de características. Además, construimos meticulosamente un punto de referencia, es decir, MC-Bench, con 1.1K pares de imagen-trayectoria anotados por usuarios, para la evaluación tanto del control de movimiento I2V de grano fino como a nivel de objeto. Experimentos extensivos realizados en WebVid-10M y MC-Bench demuestran la efectividad de MotionPro. Consulte nuestra página del proyecto para obtener más resultados: https://zhw-zhang.github.io/MotionPro-page/.
English
Animating images with interactive motion control has garnered popularity for
image-to-video (I2V) generation. Modern approaches typically rely on large
Gaussian kernels to extend motion trajectories as condition without explicitly
defining movement region, leading to coarse motion control and failing to
disentangle object and camera moving. To alleviate these, we present MotionPro,
a precise motion controller that novelly leverages region-wise trajectory and
motion mask to regulate fine-grained motion synthesis and identify target
motion category (i.e., object or camera moving), respectively. Technically,
MotionPro first estimates the flow maps on each training video via a tracking
model, and then samples the region-wise trajectories to simulate inference
scenario. Instead of extending flow through large Gaussian kernels, our
region-wise trajectory approach enables more precise control by directly
utilizing trajectories within local regions, thereby effectively characterizing
fine-grained movements. A motion mask is simultaneously derived from the
predicted flow maps to capture the holistic motion dynamics of the movement
regions. To pursue natural motion control, MotionPro further strengthens video
denoising by incorporating both region-wise trajectories and motion mask
through feature modulation. More remarkably, we meticulously construct a
benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for
the evaluation of both fine-grained and object-level I2V motion control.
Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the
effectiveness of MotionPro. Please refer to our project page for more results:
https://zhw-zhang.github.io/MotionPro-page/.Summary
AI-Generated Summary