ChatPaper.aiChatPaper

DragAnything: Controle de Movimento para Qualquer Coisa usando Representação de Entidades

DragAnything: Motion Control for Anything using Entity Representation

March 12, 2024
Autores: Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
cs.AI

Resumo

Apresentamos o DragAnything, que utiliza uma representação de entidade para alcançar controle de movimento para qualquer objeto na geração de vídeo controlável. Em comparação com os métodos existentes de controle de movimento, o DragAnything oferece várias vantagens. Primeiramente, a abordagem baseada em trajetória é mais amigável para interação, especialmente quando a obtenção de outros sinais de orientação (por exemplo, máscaras, mapas de profundidade) é trabalhosa. Os usuários precisam apenas desenhar uma linha (trajetória) durante a interação. Em segundo lugar, nossa representação de entidade funciona como uma incorporação de domínio aberto capaz de representar qualquer objeto, permitindo o controle de movimento para diversas entidades, incluindo o fundo. Por fim, nossa representação de entidade permite o controle de movimento simultâneo e distinto para múltiplos objetos. Experimentos extensivos demonstram que o DragAnything alcança desempenho de ponta em FVD, FID e Estudo de Usuário, particularmente em termos de controle de movimento de objetos, onde nosso método supera os métodos anteriores (por exemplo, DragNUWA) em 26% na votação humana.
English
We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.
PDF141February 7, 2026