DragAnything: Controllo del Movimento per Ogni Elemento utilizzando la Rappresentazione di Entità
DragAnything: Motion Control for Anything using Entity Representation
March 12, 2024
Autori: Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
cs.AI
Abstract
Presentiamo DragAnything, che utilizza una rappresentazione di entità per ottenere il controllo del movimento di qualsiasi oggetto nella generazione video controllabile. Rispetto ai metodi esistenti di controllo del movimento, DragAnything offre diversi vantaggi. In primo luogo, l'approccio basato su traiettorie è più user-friendly per l'interazione, poiché l'acquisizione di altri segnali di guida (ad esempio, maschere, mappe di profondità) è laboriosa. Gli utenti devono solo disegnare una linea (traiettoria) durante l'interazione. In secondo luogo, la nostra rappresentazione di entità funge da embedding open-domain in grado di rappresentare qualsiasi oggetto, consentendo il controllo del movimento per entità diverse, incluso lo sfondo. Infine, la nostra rappresentazione di entità permette il controllo simultaneo e distinto del movimento per più oggetti. Esperimenti estensivi dimostrano che DragAnything raggiunge prestazioni all'avanguardia per FVD, FID e User Study, in particolare per quanto riguarda il controllo del movimento degli oggetti, dove il nostro metodo supera i metodi precedenti (ad esempio, DragNUWA) del 26% nei voti umani.
English
We introduce DragAnything, which utilizes a entity representation to achieve
motion control for any object in controllable video generation. Comparison to
existing motion control methods, DragAnything offers several advantages.
Firstly, trajectory-based is more userfriendly for interaction, when acquiring
other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only
need to draw a line (trajectory) during interaction. Secondly, our entity
representation serves as an open-domain embedding capable of representing any
object, enabling the control of motion for diverse entities, including
background. Lastly, our entity representation allows simultaneous and distinct
motion control for multiple objects. Extensive experiments demonstrate that our
DragAnything achieves state-of-the-art performance for FVD, FID, and User
Study, particularly in terms of object motion control, where our method
surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.