ChatPaper.aiChatPaper

DragAnything: Controllo del Movimento per Ogni Elemento utilizzando la Rappresentazione di Entità

DragAnything: Motion Control for Anything using Entity Representation

March 12, 2024
Autori: Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
cs.AI

Abstract

Presentiamo DragAnything, che utilizza una rappresentazione di entità per ottenere il controllo del movimento di qualsiasi oggetto nella generazione video controllabile. Rispetto ai metodi esistenti di controllo del movimento, DragAnything offre diversi vantaggi. In primo luogo, l'approccio basato su traiettorie è più user-friendly per l'interazione, poiché l'acquisizione di altri segnali di guida (ad esempio, maschere, mappe di profondità) è laboriosa. Gli utenti devono solo disegnare una linea (traiettoria) durante l'interazione. In secondo luogo, la nostra rappresentazione di entità funge da embedding open-domain in grado di rappresentare qualsiasi oggetto, consentendo il controllo del movimento per entità diverse, incluso lo sfondo. Infine, la nostra rappresentazione di entità permette il controllo simultaneo e distinto del movimento per più oggetti. Esperimenti estensivi dimostrano che DragAnything raggiunge prestazioni all'avanguardia per FVD, FID e User Study, in particolare per quanto riguarda il controllo del movimento degli oggetti, dove il nostro metodo supera i metodi precedenti (ad esempio, DragNUWA) del 26% nei voti umani.
English
We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.
PDF141February 26, 2026