ChatPaper.aiChatPaper

Direct-a-Video : Génération de vidéos personnalisées avec mouvement de caméra dirigé par l'utilisateur et déplacement d'objets

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

February 5, 2024
Auteurs: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI

Résumé

Les récents modèles de diffusion texte-vidéo ont réalisé des progrès impressionnants. En pratique, les utilisateurs souhaitent souvent pouvoir contrôler indépendamment le mouvement des objets et le mouvement de la caméra pour créer des vidéos personnalisées. Cependant, les méthodes actuelles ne se concentrent pas sur le contrôle séparé du mouvement des objets et du mouvement de la caméra de manière découplée, ce qui limite la contrôlabilité et la flexibilité des modèles texte-vidéo. Dans cet article, nous présentons Direct-a-Video, un système qui permet aux utilisateurs de spécifier indépendamment les mouvements d'un ou plusieurs objets et/ou les mouvements de la caméra, comme s'ils dirigeaient une vidéo. Nous proposons une stratégie simple mais efficace pour le contrôle découplé du mouvement des objets et du mouvement de la caméra. Le mouvement des objets est contrôlé par modulation de l'attention croisée spatiale en utilisant les connaissances a priori du modèle, sans nécessiter d'optimisation supplémentaire. Pour le mouvement de la caméra, nous introduisons de nouvelles couches d'attention croisée temporelle pour interpréter les paramètres quantitatifs du mouvement de la caméra. Nous utilisons en outre une approche basée sur l'augmentation pour entraîner ces couches de manière auto-supervisée sur un petit ensemble de données, éliminant ainsi le besoin d'annotations explicites de mouvement. Les deux composants fonctionnent indépendamment, permettant un contrôle individuel ou combiné, et peuvent généraliser à des scénarios en domaine ouvert. Des expériences approfondies démontrent la supériorité et l'efficacité de notre méthode. Page du projet : https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for one or multiple objects and/or camera movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page: https://direct-a-video.github.io/.
PDF191December 15, 2024