ATI: Beliebige Trajektorienanweisung für kontrollierbare Videogenerierung
ATI: Any Trajectory Instruction for Controllable Video Generation
May 28, 2025
Autoren: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI
Zusammenfassung
Wir schlagen ein einheitliches Framework für die Bewegungssteuerung in der Videogenerierung vor, das nahtlos Kamerabewegungen, Objekttranslationen und fein abgestimmte lokale Bewegungen durch trajektorienbasierte Eingaben integriert. Im Gegensatz zu früheren Methoden, die diese Bewegungstypen durch separate Module oder aufgabenspezifische Designs behandeln, bietet unser Ansatz eine kohärente Lösung, indem benutzerdefinierte Trajektorien über einen leichtgewichtigen Bewegungsinjektor in den latenten Raum vortrainierter Bild-zu-Video-Generierungsmodelle projiziert werden. Benutzer können Keypoints und deren Bewegungspfade angeben, um lokale Verformungen, gesamte Objektbewegungen, virtuelle Kameradynamiken oder Kombinationen davon zu steuern. Die injizierten Trajektoriensignale leiten den Generierungsprozess an, um zeitlich konsistente und semantisch ausgerichtete Bewegungssequenzen zu erzeugen. Unser Framework zeigt überlegene Leistung bei verschiedenen Aufgaben der Videobewegungssteuerung, darunter stilisierte Bewegungseffekte (z. B. Bewegungsbürsten), dynamische Blickwinkeländerungen und präzise lokale Bewegungsmanipulation. Experimente zeigen, dass unsere Methode im Vergleich zu früheren Ansätzen und kommerziellen Lösungen deutlich bessere Steuerbarkeit und visuelle Qualität bietet, während sie breit mit verschiedenen state-of-the-art Videogenerierungs-Backbones kompatibel bleibt. Projektseite: https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that
seamlessly integrates camera movement, object-level translation, and
fine-grained local motion using trajectory-based inputs. In contrast to prior
methods that address these motion types through separate modules or
task-specific designs, our approach offers a cohesive solution by projecting
user-defined trajectories into the latent space of pre-trained image-to-video
generation models via a lightweight motion injector. Users can specify
keypoints and their motion paths to control localized deformations, entire
object motion, virtual camera dynamics, or combinations of these. The injected
trajectory signals guide the generative process to produce temporally
consistent and semantically aligned motion sequences. Our framework
demonstrates superior performance across multiple video motion control tasks,
including stylized motion effects (e.g., motion brushes), dynamic viewpoint
changes, and precise local motion manipulation. Experiments show that our
method provides significantly better controllability and visual quality
compared to prior approaches and commercial solutions, while remaining broadly
compatible with various state-of-the-art video generation backbones. Project
page: https://anytraj.github.io/.