Direct-a-Video : Génération de vidéos personnalisées avec mouvement de caméra dirigé par l'utilisateur et déplacement d'objets
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
February 5, 2024
Auteurs: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI
Résumé
Les récents modèles de diffusion texte-vidéo ont réalisé des progrès impressionnants. En pratique, les utilisateurs souhaitent souvent pouvoir contrôler indépendamment le mouvement des objets et le mouvement de la caméra pour créer des vidéos personnalisées. Cependant, les méthodes actuelles ne se concentrent pas sur le contrôle séparé du mouvement des objets et du mouvement de la caméra de manière découplée, ce qui limite la contrôlabilité et la flexibilité des modèles texte-vidéo. Dans cet article, nous présentons Direct-a-Video, un système qui permet aux utilisateurs de spécifier indépendamment les mouvements d'un ou plusieurs objets et/ou les mouvements de la caméra, comme s'ils dirigeaient une vidéo. Nous proposons une stratégie simple mais efficace pour le contrôle découplé du mouvement des objets et du mouvement de la caméra. Le mouvement des objets est contrôlé par modulation de l'attention croisée spatiale en utilisant les connaissances a priori du modèle, sans nécessiter d'optimisation supplémentaire. Pour le mouvement de la caméra, nous introduisons de nouvelles couches d'attention croisée temporelle pour interpréter les paramètres quantitatifs du mouvement de la caméra. Nous utilisons en outre une approche basée sur l'augmentation pour entraîner ces couches de manière auto-supervisée sur un petit ensemble de données, éliminant ainsi le besoin d'annotations explicites de mouvement. Les deux composants fonctionnent indépendamment, permettant un contrôle individuel ou combiné, et peuvent généraliser à des scénarios en domaine ouvert. Des expériences approfondies démontrent la supériorité et l'efficacité de notre méthode. Page du projet : https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.