ChatPaper.aiChatPaper

DragAnything : Contrôle du mouvement pour tout objet utilisant une représentation d'entité

DragAnything: Motion Control for Anything using Entity Representation

March 12, 2024
Auteurs: Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
cs.AI

Résumé

Nous présentons DragAnything, qui utilise une représentation d'entité pour réaliser le contrôle du mouvement de n'importe quel objet dans la génération de vidéos contrôlables. Comparé aux méthodes existantes de contrôle du mouvement, DragAnything offre plusieurs avantages. Premièrement, l'approche basée sur les trajectoires est plus conviviale pour l'interaction, car l'acquisition d'autres signaux de guidage (par exemple, masques, cartes de profondeur) est laborieuse. Les utilisateurs n'ont qu'à tracer une ligne (trajectoire) lors de l'interaction. Deuxièmement, notre représentation d'entité sert d'embedding ouvert, capable de représenter n'importe quel objet, permettant ainsi le contrôle du mouvement pour des entités diverses, y compris l'arrière-plan. Enfin, notre représentation d'entité permet un contrôle simultané et distinct du mouvement pour plusieurs objets. Des expériences approfondies démontrent que DragAnything atteint des performances de pointe pour les métriques FVD, FID et les études utilisateurs, en particulier en termes de contrôle du mouvement des objets, où notre méthode surpasse les méthodes précédentes (par exemple, DragNUWA) de 26 % dans les votes humains.
English
We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.

Summary

AI-Generated Summary

PDF151December 15, 2024