ATI: Willekeurige Trajectorie-instructie voor beheersbare videogeneratie
ATI: Any Trajectory Instruction for Controllable Video Generation
May 28, 2025
Auteurs: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI
Samenvatting
Wij stellen een uniform raamwerk voor voor bewegingscontrole in videogeneratie dat naadloos camerabeweging, objectniveau vertaling en fijnmazige lokale beweging integreert met behulp van trajectgebaseerde invoer. In tegenstelling tot eerdere methoden die deze bewegingsvormen via afzonderlijke modules of taakspecifieke ontwerpen aanpakken, biedt onze aanpak een samenhangende oplossing door door de gebruiker gedefinieerde trajecten te projecteren in de latente ruimte van vooraf getrainde beeld-naar-video generatiemodellen via een lichtgewicht beweginginjector. Gebruikers kunnen sleutelpunten en hun bewegingspaden specificeren om gelokaliseerde vervormingen, volledige objectbeweging, virtuele cameradynamiek of combinaties hiervan te controleren. De geïnjecteerde trajectsignalen begeleiden het generatieve proces om temporeel consistente en semantisch uitgelijnde bewegingssequenties te produceren. Ons raamwerk toont superieure prestaties over meerdere videobewegingscontroletaken, waaronder gestileerde bewegingseffecten (bijv. bewegingpenselen), dynamische gezichtspuntveranderingen en precieze lokale bewegingsmanipulatie. Experimenten tonen aan dat onze methode aanzienlijk betere bestuurbaarheid en visuele kwaliteit biedt in vergelijking met eerdere benaderingen en commerciële oplossingen, terwijl het breed compatibel blijft met verschillende state-of-the-art videogeneratie backbones. Projectpagina: https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that
seamlessly integrates camera movement, object-level translation, and
fine-grained local motion using trajectory-based inputs. In contrast to prior
methods that address these motion types through separate modules or
task-specific designs, our approach offers a cohesive solution by projecting
user-defined trajectories into the latent space of pre-trained image-to-video
generation models via a lightweight motion injector. Users can specify
keypoints and their motion paths to control localized deformations, entire
object motion, virtual camera dynamics, or combinations of these. The injected
trajectory signals guide the generative process to produce temporally
consistent and semantically aligned motion sequences. Our framework
demonstrates superior performance across multiple video motion control tasks,
including stylized motion effects (e.g., motion brushes), dynamic viewpoint
changes, and precise local motion manipulation. Experiments show that our
method provides significantly better controllability and visual quality
compared to prior approaches and commercial solutions, while remaining broadly
compatible with various state-of-the-art video generation backbones. Project
page: https://anytraj.github.io/.