Wan-Move: Generación de Video Controlable por Movimiento mediante Guía de Trayectorias Latentes
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
December 9, 2025
Autores: Ruihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang
cs.AI
Resumen
Presentamos Wan-Move, un marco de trabajo simple y escalable que incorpora control de movimiento a los modelos generativos de video. Los métodos existentes con capacidad de control de movimiento suelen adolecer de una granularidad de control tosca y una escalabilidad limitada, lo que hace que sus resultados sean insuficientes para un uso práctico. Reducimos esta brecha logrando un control de movimiento preciso y de alta calidad. Nuestra idea central es hacer directamente que las características de condición originales sean conscientes del movimiento para guiar la síntesis de video. Para ello, primero representamos los movimientos de los objetos con trayectorias de puntos densas, permitiendo un control de grano fino sobre la escena. Luego proyectamos estas trayectorias en el espacio latente y propagamos las características del primer fotograma a lo largo de cada trayectoria, produciendo un mapa de características espacio-temporales alineado que indica cómo debe moverse cada elemento de la escena. Este mapa de características sirve como la condición latente actualizada, que se integra naturalmente en el modelo estándar de imagen a video, por ejemplo, Wan-I2V-14B, como guía de movimiento sin ningún cambio arquitectónico. Elimina la necesidad de codificadores de movimiento auxiliares y hace que el ajuste fino de los modelos base sea fácilmente escalable. Mediante entrenamiento a escala, Wan-Move genera videos de 5 segundos y 480p cuya capacidad de control de movimiento rivaliza con la función comercial Motion Brush de Kling 1.5 Pro, según indican estudios de usuarios. Para respaldar una evaluación integral, diseñamos además MoveBench, un punto de referencia rigurosamente curado que presenta diversas categorías de contenido y anotaciones de verificación híbrida. Se distingue por un mayor volumen de datos, duraciones de video más largas y anotaciones de movimiento de alta calidad. Experimentos exhaustivos en MoveBench y en conjuntos de datos públicos muestran consistentemente la calidad de movimiento superior de Wan-Move. El código, los modelos y los datos del benchmark se han hecho públicos.
English
We present Wan-Move, a simple and scalable framework that brings motion control to video generative models. Existing motion-controllable methods typically suffer from coarse control granularity and limited scalability, leaving their outputs insufficient for practical use. We narrow this gap by achieving precise and high-quality motion control. Our core idea is to directly make the original condition features motion-aware for guiding video synthesis. To this end, we first represent object motions with dense point trajectories, allowing fine-grained control over the scene. We then project these trajectories into latent space and propagate the first frame's features along each trajectory, producing an aligned spatiotemporal feature map that tells how each scene element should move. This feature map serves as the updated latent condition, which is naturally integrated into the off-the-shelf image-to-video model, e.g., Wan-I2V-14B, as motion guidance without any architecture change. It removes the need for auxiliary motion encoders and makes fine-tuning base models easily scalable. Through scaled training, Wan-Move generates 5-second, 480p videos whose motion controllability rivals Kling 1.5 Pro's commercial Motion Brush, as indicated by user studies. To support comprehensive evaluation, we further design MoveBench, a rigorously curated benchmark featuring diverse content categories and hybrid-verified annotations. It is distinguished by larger data volume, longer video durations, and high-quality motion annotations. Extensive experiments on MoveBench and the public dataset consistently show Wan-Move's superior motion quality. Code, models, and benchmark data are made publicly available.