DragAnything : Contrôle du mouvement pour tout objet utilisant une représentation d'entité
DragAnything: Motion Control for Anything using Entity Representation
March 12, 2024
Auteurs: Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
cs.AI
Résumé
Nous présentons DragAnything, qui utilise une représentation d'entité pour réaliser le contrôle du mouvement de n'importe quel objet dans la génération de vidéos contrôlables. Comparé aux méthodes existantes de contrôle du mouvement, DragAnything offre plusieurs avantages. Premièrement, l'approche basée sur les trajectoires est plus conviviale pour l'interaction, car l'acquisition d'autres signaux de guidage (par exemple, masques, cartes de profondeur) est laborieuse. Les utilisateurs n'ont qu'à tracer une ligne (trajectoire) lors de l'interaction. Deuxièmement, notre représentation d'entité sert d'embedding ouvert, capable de représenter n'importe quel objet, permettant ainsi le contrôle du mouvement pour des entités diverses, y compris l'arrière-plan. Enfin, notre représentation d'entité permet un contrôle simultané et distinct du mouvement pour plusieurs objets. Des expériences approfondies démontrent que DragAnything atteint des performances de pointe pour les métriques FVD, FID et les études utilisateurs, en particulier en termes de contrôle du mouvement des objets, où notre méthode surpasse les méthodes précédentes (par exemple, DragNUWA) de 26 % dans les votes humains.
English
We introduce DragAnything, which utilizes a entity representation to achieve
motion control for any object in controllable video generation. Comparison to
existing motion control methods, DragAnything offers several advantages.
Firstly, trajectory-based is more userfriendly for interaction, when acquiring
other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only
need to draw a line (trajectory) during interaction. Secondly, our entity
representation serves as an open-domain embedding capable of representing any
object, enabling the control of motion for diverse entities, including
background. Lastly, our entity representation allows simultaneous and distinct
motion control for multiple objects. Extensive experiments demonstrate that our
DragAnything achieves state-of-the-art performance for FVD, FID, and User
Study, particularly in terms of object motion control, where our method
surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.Summary
AI-Generated Summary