MagicMotion: Generación de Video Controlable con Guía de Trayectoria de Denso a Escaso

Resumen

Los recientes avances en la generación de vídeo han llevado a mejoras notables en la calidad visual y la coherencia temporal. Sobre esta base, ha surgido la generación de vídeo controlable por trayectorias, que permite un control preciso del movimiento de objetos a través de rutas espaciales definidas explícitamente. Sin embargo, los métodos existentes tienen dificultades con movimientos complejos de objetos y el control de movimiento de múltiples objetos, lo que resulta en una adherencia imprecisa a las trayectorias, una consistencia deficiente de los objetos y una calidad visual comprometida. Además, estos métodos solo admiten el control de trayectorias en un único formato, lo que limita su aplicabilidad en diversos escenarios. Asimismo, no existe un conjunto de datos o un benchmark disponible públicamente específicamente diseñado para la generación de vídeo controlable por trayectorias, lo que dificulta el entrenamiento robusto y la evaluación sistemática. Para abordar estos desafíos, presentamos MagicMotion, un novedoso marco de generación de imagen a vídeo que permite el control de trayectorias a través de tres niveles de condiciones, desde densas hasta dispersas: máscaras, cuadros delimitadores y cuadros dispersos. Dada una imagen de entrada y trayectorias, MagicMotion anima objetos a lo largo de las trayectorias definidas manteniendo la consistencia del objeto y la calidad visual. Además, presentamos MagicData, un conjunto de datos de vídeo controlado por trayectorias a gran escala, junto con una canalización automatizada para la anotación y el filtrado. También introducimos MagicBench, un benchmark integral que evalúa tanto la calidad del vídeo como la precisión del control de trayectorias en diferentes números de objetos. Experimentos extensos demuestran que MagicMotion supera a los métodos anteriores en varias métricas. Nuestra página del proyecto está disponible públicamente en https://quanhaol.github.io/magicmotion-site.

English

Recent advances in video generation have led to remarkable improvements in visual quality and temporal coherence. Upon this, trajectory-controllable video generation has emerged to enable precise object motion control through explicitly defined spatial paths. However, existing methods struggle with complex object movements and multi-object motion control, resulting in imprecise trajectory adherence, poor object consistency, and compromised visual quality. Furthermore, these methods only support trajectory control in a single format, limiting their applicability in diverse scenarios. Additionally, there is no publicly available dataset or benchmark specifically tailored for trajectory-controllable video generation, hindering robust training and systematic evaluation. To address these challenges, we introduce MagicMotion, a novel image-to-video generation framework that enables trajectory control through three levels of conditions from dense to sparse: masks, bounding boxes, and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly animates objects along defined trajectories while maintaining object consistency and visual quality. Furthermore, we present MagicData, a large-scale trajectory-controlled video dataset, along with an automated pipeline for annotation and filtering. We also introduce MagicBench, a comprehensive benchmark that assesses both video quality and trajectory control accuracy across different numbers of objects. Extensive experiments demonstrate that MagicMotion outperforms previous methods across various metrics. Our project page are publicly available at https://quanhaol.github.io/magicmotion-site.

MagicMotion: Generación de Video Controlable con Guía de Trayectoria de Denso a Escaso

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Resumen

Support