ChatPaper.aiChatPaper

ATI: Instrucción de Trayectoria Arbitraria para la Generación Controlable de Videos

ATI: Any Trajectory Instruction for Controllable Video Generation

May 28, 2025
Autores: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI

Resumen

Proponemos un marco unificado para el control de movimiento en la generación de videos que integra de manera fluida el movimiento de la cámara, la traslación a nivel de objetos y el movimiento local detallado mediante entradas basadas en trayectorias. A diferencia de métodos anteriores que abordan estos tipos de movimiento a través de módulos separados o diseños específicos para tareas, nuestro enfoque ofrece una solución cohesiva al proyectar trayectorias definidas por el usuario en el espacio latente de modelos preentrenados de generación de imagen a video mediante un inyector de movimiento ligero. Los usuarios pueden especificar puntos clave y sus rutas de movimiento para controlar deformaciones localizadas, el movimiento completo de objetos, dinámicas de cámara virtual o combinaciones de estos. Las señales de trayectoria inyectadas guían el proceso generativo para producir secuencias de movimiento temporalmente consistentes y semánticamente alineadas. Nuestro marco demuestra un rendimiento superior en múltiples tareas de control de movimiento en videos, incluyendo efectos de movimiento estilizados (por ejemplo, pinceles de movimiento), cambios dinámicos de perspectiva y manipulación precisa de movimiento local. Los experimentos muestran que nuestro método ofrece una controlabilidad y calidad visual significativamente mejores en comparación con enfoques anteriores y soluciones comerciales, manteniendo una amplia compatibilidad con varios modelos de generación de video de última generación. Página del proyecto: https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that seamlessly integrates camera movement, object-level translation, and fine-grained local motion using trajectory-based inputs. In contrast to prior methods that address these motion types through separate modules or task-specific designs, our approach offers a cohesive solution by projecting user-defined trajectories into the latent space of pre-trained image-to-video generation models via a lightweight motion injector. Users can specify keypoints and their motion paths to control localized deformations, entire object motion, virtual camera dynamics, or combinations of these. The injected trajectory signals guide the generative process to produce temporally consistent and semantically aligned motion sequences. Our framework demonstrates superior performance across multiple video motion control tasks, including stylized motion effects (e.g., motion brushes), dynamic viewpoint changes, and precise local motion manipulation. Experiments show that our method provides significantly better controllability and visual quality compared to prior approaches and commercial solutions, while remaining broadly compatible with various state-of-the-art video generation backbones. Project page: https://anytraj.github.io/.
PDF72May 30, 2025