ATI: Istruzione per Qualsiasi Traiettoria per la Generazione Controllabile di Video
ATI: Any Trajectory Instruction for Controllable Video Generation
May 28, 2025
Autori: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI
Abstract
Proponiamo un framework unificato per il controllo del movimento nella generazione di video che integra in modo fluido il movimento della telecamera, la traslazione a livello di oggetto e il movimento locale dettagliato utilizzando input basati su traiettorie. A differenza dei metodi precedenti che affrontano questi tipi di movimento attraverso moduli separati o design specifici per il compito, il nostro approccio offre una soluzione coerente proiettando traiettorie definite dall'utente nello spazio latente di modelli pre-addestrati per la generazione di video da immagini tramite un iniettore di movimento leggero. Gli utenti possono specificare punti chiave e i loro percorsi di movimento per controllare deformazioni localizzate, il movimento completo di un oggetto, dinamiche della telecamera virtuale o combinazioni di questi. I segnali di traiettoria iniettati guidano il processo generativo per produrre sequenze di movimento temporalmente coerenti e semanticamente allineate. Il nostro framework dimostra prestazioni superiori in molteplici compiti di controllo del movimento video, inclusi effetti di movimento stilizzati (ad esempio, pennelli di movimento), cambiamenti dinamici del punto di vista e manipolazione precisa del movimento locale. Gli esperimenti mostrano che il nostro metodo offre una controllabilità e una qualità visiva significativamente migliori rispetto agli approcci precedenti e alle soluzioni commerciali, pur rimanendo ampiamente compatibile con vari modelli all'avanguardia per la generazione di video. Pagina del progetto: https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that
seamlessly integrates camera movement, object-level translation, and
fine-grained local motion using trajectory-based inputs. In contrast to prior
methods that address these motion types through separate modules or
task-specific designs, our approach offers a cohesive solution by projecting
user-defined trajectories into the latent space of pre-trained image-to-video
generation models via a lightweight motion injector. Users can specify
keypoints and their motion paths to control localized deformations, entire
object motion, virtual camera dynamics, or combinations of these. The injected
trajectory signals guide the generative process to produce temporally
consistent and semantically aligned motion sequences. Our framework
demonstrates superior performance across multiple video motion control tasks,
including stylized motion effects (e.g., motion brushes), dynamic viewpoint
changes, and precise local motion manipulation. Experiments show that our
method provides significantly better controllability and visual quality
compared to prior approaches and commercial solutions, while remaining broadly
compatible with various state-of-the-art video generation backbones. Project
page: https://anytraj.github.io/.