Attention de trajectoire pour le contrôle fin des mouvements vidéo.
Trajectory Attention for Fine-grained Video Motion Control
November 28, 2024
Auteurs: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Résumé
Les récents progrès en matière de génération vidéo ont été largement stimulés par les modèles de diffusion vidéo, le contrôle du mouvement de la caméra émergeant comme un défi crucial dans la création de contenus visuels personnalisés. Cet article présente l'attention de trajectoire, une approche novatrice qui effectue une attention le long des trajectoires de pixels disponibles pour un contrôle fin du mouvement de la caméra. Contrairement aux méthodes existantes qui donnent souvent des résultats imprécis ou négligent les corrélations temporelles, notre approche possède un biais inductif plus fort qui injecte de manière transparente des informations de trajectoire dans le processus de génération vidéo. Importamment, notre approche modélise l'attention de trajectoire comme une branche auxiliaire aux côtés de l'attention temporelle traditionnelle. Cette conception permet à l'attention temporelle originale et à l'attention de trajectoire de travailler en synergie, garantissant à la fois un contrôle précis du mouvement et une nouvelle capacité de génération de contenu, ce qui est crucial lorsque la trajectoire n'est disponible que partiellement. Des expériences sur le contrôle du mouvement de la caméra pour les images et les vidéos montrent des améliorations significatives en termes de précision et de cohérence à long terme tout en maintenant une génération de haute qualité. De plus, nous montrons que notre approche peut être étendue à d'autres tâches de contrôle de mouvement vidéo, telles que le montage vidéo guidé par la première image, où elle excelle dans le maintien de la cohérence du contenu sur de grandes étendues spatiales et temporelles.
English
Recent advancements in video generation have been greatly driven by video
diffusion models, with camera motion control emerging as a crucial challenge in
creating view-customized visual content. This paper introduces trajectory
attention, a novel approach that performs attention along available pixel
trajectories for fine-grained camera motion control. Unlike existing methods
that often yield imprecise outputs or neglect temporal correlations, our
approach possesses a stronger inductive bias that seamlessly injects trajectory
information into the video generation process. Importantly, our approach models
trajectory attention as an auxiliary branch alongside traditional temporal
attention. This design enables the original temporal attention and the
trajectory attention to work in synergy, ensuring both precise motion control
and new content generation capability, which is critical when the trajectory is
only partially available. Experiments on camera motion control for images and
videos demonstrate significant improvements in precision and long-range
consistency while maintaining high-quality generation. Furthermore, we show
that our approach can be extended to other video motion control tasks, such as
first-frame-guided video editing, where it excels in maintaining content
consistency over large spatial and temporal ranges.Summary
AI-Generated Summary