Estímulo de Movimiento: Controlando la Generación de Video con Trayectorias de Movimiento
Motion Prompting: Controlling Video Generation with Motion Trajectories
December 3, 2024
Autores: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI
Resumen
El control de movimiento es crucial para generar contenido de video expresivo y convincente; sin embargo, la mayoría de los modelos existentes de generación de video se basan principalmente en indicaciones de texto para el control, lo cual dificulta capturar los matices de acciones dinámicas y composiciones temporales. Con este fin, entrenamos un modelo de generación de video condicionado a trayectorias de movimiento espaciotemporales dispersas o densas. En contraste con trabajos previos de condicionamiento de movimiento, esta representación flexible puede codificar cualquier cantidad de trayectorias, movimiento específico de objetos o movimiento global de escena, y movimiento temporalmente disperso; debido a su flexibilidad, nos referimos a este condicionamiento como indicaciones de movimiento. Mientras los usuarios pueden especificar directamente trayectorias dispersas, también mostramos cómo traducir solicitudes de usuarios de alto nivel en indicaciones de movimiento detalladas y semi-densas, un proceso que denominamos expansión de indicaciones de movimiento. Demostramos la versatilidad de nuestro enfoque a través de varias aplicaciones, incluyendo control de movimiento de cámara y objetos, "interactuar" con una imagen, transferencia de movimiento y edición de imágenes. Nuestros resultados muestran comportamientos emergentes, como física realista, lo que sugiere el potencial de las indicaciones de movimiento para explorar modelos de video e interactuar con futuros modelos generativos del mundo. Finalmente, evaluamos cuantitativamente, realizamos un estudio humano y demostramos un rendimiento sólido. Los resultados en video están disponibles en nuestra página web: https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video
content; however, most existing video generation models rely mainly on text
prompts for control, which struggle to capture the nuances of dynamic actions
and temporal compositions. To this end, we train a video generation model
conditioned on spatio-temporally sparse or dense motion trajectories. In
contrast to prior motion conditioning work, this flexible representation can
encode any number of trajectories, object-specific or global scene motion, and
temporally sparse motion; due to its flexibility we refer to this conditioning
as motion prompts. While users may directly specify sparse trajectories, we
also show how to translate high-level user requests into detailed, semi-dense
motion prompts, a process we term motion prompt expansion. We demonstrate the
versatility of our approach through various applications, including camera and
object motion control, "interacting" with an image, motion transfer, and image
editing. Our results showcase emergent behaviors, such as realistic physics,
suggesting the potential of motion prompts for probing video models and
interacting with future generative world models. Finally, we evaluate
quantitatively, conduct a human study, and demonstrate strong performance.
Video results are available on our webpage: https://motion-prompting.github.io/Summary
AI-Generated Summary