MagicMotion: Generación de Video Controlable con Guía de Trayectoria de Denso a Escaso
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance
March 20, 2025
Autores: Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu
cs.AI
Resumen
Los recientes avances en la generación de vídeo han llevado a mejoras notables en la calidad visual y la coherencia temporal. Sobre esta base, ha surgido la generación de vídeo controlable por trayectorias, que permite un control preciso del movimiento de objetos a través de rutas espaciales definidas explícitamente. Sin embargo, los métodos existentes tienen dificultades con movimientos complejos de objetos y el control de movimiento de múltiples objetos, lo que resulta en una adherencia imprecisa a las trayectorias, una consistencia deficiente de los objetos y una calidad visual comprometida. Además, estos métodos solo admiten el control de trayectorias en un único formato, lo que limita su aplicabilidad en diversos escenarios. Asimismo, no existe un conjunto de datos o un benchmark disponible públicamente específicamente diseñado para la generación de vídeo controlable por trayectorias, lo que dificulta el entrenamiento robusto y la evaluación sistemática. Para abordar estos desafíos, presentamos MagicMotion, un novedoso marco de generación de imagen a vídeo que permite el control de trayectorias a través de tres niveles de condiciones, desde densas hasta dispersas: máscaras, cuadros delimitadores y cuadros dispersos. Dada una imagen de entrada y trayectorias, MagicMotion anima objetos a lo largo de las trayectorias definidas manteniendo la consistencia del objeto y la calidad visual. Además, presentamos MagicData, un conjunto de datos de vídeo controlado por trayectorias a gran escala, junto con una canalización automatizada para la anotación y el filtrado. También introducimos MagicBench, un benchmark integral que evalúa tanto la calidad del vídeo como la precisión del control de trayectorias en diferentes números de objetos. Experimentos extensos demuestran que MagicMotion supera a los métodos anteriores en varias métricas. Nuestra página del proyecto está disponible públicamente en https://quanhaol.github.io/magicmotion-site.
English
Recent advances in video generation have led to remarkable improvements in
visual quality and temporal coherence. Upon this, trajectory-controllable video
generation has emerged to enable precise object motion control through
explicitly defined spatial paths. However, existing methods struggle with
complex object movements and multi-object motion control, resulting in
imprecise trajectory adherence, poor object consistency, and compromised visual
quality. Furthermore, these methods only support trajectory control in a single
format, limiting their applicability in diverse scenarios. Additionally, there
is no publicly available dataset or benchmark specifically tailored for
trajectory-controllable video generation, hindering robust training and
systematic evaluation. To address these challenges, we introduce MagicMotion, a
novel image-to-video generation framework that enables trajectory control
through three levels of conditions from dense to sparse: masks, bounding boxes,
and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly
animates objects along defined trajectories while maintaining object
consistency and visual quality. Furthermore, we present MagicData, a
large-scale trajectory-controlled video dataset, along with an automated
pipeline for annotation and filtering. We also introduce MagicBench, a
comprehensive benchmark that assesses both video quality and trajectory control
accuracy across different numbers of objects. Extensive experiments demonstrate
that MagicMotion outperforms previous methods across various metrics. Our
project page are publicly available at
https://quanhaol.github.io/magicmotion-site.Summary
AI-Generated Summary