ATI: Instrução de Trajetória Arbitrária para Geração de Vídeo Controlável
ATI: Any Trajectory Instruction for Controllable Video Generation
May 28, 2025
Autores: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI
Resumo
Propomos um framework unificado para controle de movimento na geração de vídeos que integra de forma contínua o movimento da câmera, a translação em nível de objeto e o movimento local refinado utilizando entradas baseadas em trajetórias. Diferentemente de métodos anteriores que abordam esses tipos de movimento através de módulos separados ou designs específicos para cada tarefa, nossa abordagem oferece uma solução coesa ao projetar trajetórias definidas pelo usuário no espaço latente de modelos pré-treinados de geração de imagem para vídeo por meio de um injetor de movimento leve. Os usuários podem especificar pontos-chave e seus caminhos de movimento para controlar deformações localizadas, o movimento de objetos inteiros, dinâmicas de câmera virtual ou combinações desses elementos. Os sinais de trajetória injetados guiam o processo generativo para produzir sequências de movimento temporalmente consistentes e semanticamente alinhadas. Nosso framework demonstra desempenho superior em diversas tarefas de controle de movimento em vídeo, incluindo efeitos de movimento estilizados (por exemplo, pincéis de movimento), mudanças dinâmicas de perspectiva e manipulação precisa de movimento local. Experimentos mostram que nosso método oferece uma controlabilidade e qualidade visual significativamente melhores em comparação com abordagens anteriores e soluções comerciais, mantendo ampla compatibilidade com diversos backbones de geração de vídeo state-of-the-art. Página do projeto: https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that
seamlessly integrates camera movement, object-level translation, and
fine-grained local motion using trajectory-based inputs. In contrast to prior
methods that address these motion types through separate modules or
task-specific designs, our approach offers a cohesive solution by projecting
user-defined trajectories into the latent space of pre-trained image-to-video
generation models via a lightweight motion injector. Users can specify
keypoints and their motion paths to control localized deformations, entire
object motion, virtual camera dynamics, or combinations of these. The injected
trajectory signals guide the generative process to produce temporally
consistent and semantically aligned motion sequences. Our framework
demonstrates superior performance across multiple video motion control tasks,
including stylized motion effects (e.g., motion brushes), dynamic viewpoint
changes, and precise local motion manipulation. Experiments show that our
method provides significantly better controllability and visual quality
compared to prior approaches and commercial solutions, while remaining broadly
compatible with various state-of-the-art video generation backbones. Project
page: https://anytraj.github.io/.