Estímulo de Movimento: Controlando a Geração de Vídeo com Trajetórias de Movimento
Motion Prompting: Controlling Video Generation with Motion Trajectories
December 3, 2024
Autores: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI
Resumo
O controle de movimento é crucial para gerar conteúdo de vídeo expressivo e cativante; no entanto, a maioria dos modelos de geração de vídeo existentes depende principalmente de instruções de texto para controle, o que dificulta capturar as nuances de ações dinâmicas e composições temporais. Para isso, treinamos um modelo de geração de vídeo condicionado a trajetórias de movimento espacial e temporalmente esparsas ou densas. Em contraste com trabalhos anteriores de condicionamento de movimento, essa representação flexível pode codificar qualquer número de trajetórias, movimento específico de objetos ou de cena global, e movimento temporalmente esparsos; devido à sua flexibilidade, nos referimos a esse condicionamento como instruções de movimento. Enquanto os usuários podem especificar diretamente trajetórias esparsas, também mostramos como traduzir solicitações de usuários em níveis altos em instruções de movimento detalhadas e semi-esparsas, um processo que denominamos expansão de instruções de movimento. Demonstramos a versatilidade de nossa abordagem por meio de várias aplicações, incluindo controle de movimento de câmera e objetos, "interação" com uma imagem, transferência de movimento e edição de imagem. Nossos resultados mostram comportamentos emergentes, como física realista, sugerindo o potencial de instruções de movimento para explorar modelos de vídeo e interagir com futuros modelos gerativos do mundo. Por fim, avaliamos quantitativamente, realizamos um estudo humano e demonstramos um desempenho sólido. Os resultados em vídeo estão disponíveis em nossa página da web: https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video
content; however, most existing video generation models rely mainly on text
prompts for control, which struggle to capture the nuances of dynamic actions
and temporal compositions. To this end, we train a video generation model
conditioned on spatio-temporally sparse or dense motion trajectories. In
contrast to prior motion conditioning work, this flexible representation can
encode any number of trajectories, object-specific or global scene motion, and
temporally sparse motion; due to its flexibility we refer to this conditioning
as motion prompts. While users may directly specify sparse trajectories, we
also show how to translate high-level user requests into detailed, semi-dense
motion prompts, a process we term motion prompt expansion. We demonstrate the
versatility of our approach through various applications, including camera and
object motion control, "interacting" with an image, motion transfer, and image
editing. Our results showcase emergent behaviors, such as realistic physics,
suggesting the potential of motion prompts for probing video models and
interacting with future generative world models. Finally, we evaluate
quantitatively, conduct a human study, and demonstrate strong performance.
Video results are available on our webpage: https://motion-prompting.github.io/Summary
AI-Generated Summary