ChatPaper.aiChatPaper

ATI : Instruction de Trajectoire Arbitraire pour la Génération Contrôlée de Vidéos

ATI: Any Trajectory Instruction for Controllable Video Generation

May 28, 2025
Auteurs: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
cs.AI

Résumé

Nous proposons un cadre unifié pour le contrôle du mouvement dans la génération vidéo, intégrant de manière fluide les mouvements de caméra, les translations au niveau des objets et les mouvements locaux fins à l'aide d'entrées basées sur des trajectoires. Contrairement aux méthodes antérieures qui traitent ces types de mouvements via des modules séparés ou des conceptions spécifiques à une tâche, notre approche offre une solution cohérente en projetant des trajectoires définies par l'utilisateur dans l'espace latent de modèles pré-entraînés de génération d'images vers des vidéos, via un injecteur de mouvement léger. Les utilisateurs peuvent spécifier des points clés et leurs trajectoires de mouvement pour contrôler des déformations localisées, le mouvement d'objets entiers, la dynamique de caméra virtuelle ou des combinaisons de ces éléments. Les signaux de trajectoire injectés guident le processus génératif pour produire des séquences de mouvement temporellement cohérentes et sémantiquement alignées. Notre cadre démontre une performance supérieure dans plusieurs tâches de contrôle de mouvement vidéo, incluant des effets de mouvement stylisés (par exemple, des pinceaux de mouvement), des changements dynamiques de point de vue et une manipulation précise des mouvements locaux. Les expériences montrent que notre méthode offre une contrôlabilité et une qualité visuelle significativement meilleures par rapport aux approches antérieures et aux solutions commerciales, tout en restant largement compatible avec diverses architectures de pointe pour la génération vidéo. Page du projet : https://anytraj.github.io/.
English
We propose a unified framework for motion control in video generation that seamlessly integrates camera movement, object-level translation, and fine-grained local motion using trajectory-based inputs. In contrast to prior methods that address these motion types through separate modules or task-specific designs, our approach offers a cohesive solution by projecting user-defined trajectories into the latent space of pre-trained image-to-video generation models via a lightweight motion injector. Users can specify keypoints and their motion paths to control localized deformations, entire object motion, virtual camera dynamics, or combinations of these. The injected trajectory signals guide the generative process to produce temporally consistent and semantically aligned motion sequences. Our framework demonstrates superior performance across multiple video motion control tasks, including stylized motion effects (e.g., motion brushes), dynamic viewpoint changes, and precise local motion manipulation. Experiments show that our method provides significantly better controllability and visual quality compared to prior approaches and commercial solutions, while remaining broadly compatible with various state-of-the-art video generation backbones. Project page: https://anytraj.github.io/.
PDF72May 30, 2025