Estímulo de Movimiento: Controlando la Generación de Video con Trayectorias de Movimiento

Resumen

El control de movimiento es crucial para generar contenido de video expresivo y convincente; sin embargo, la mayoría de los modelos existentes de generación de video se basan principalmente en indicaciones de texto para el control, lo cual dificulta capturar los matices de acciones dinámicas y composiciones temporales. Con este fin, entrenamos un modelo de generación de video condicionado a trayectorias de movimiento espaciotemporales dispersas o densas. En contraste con trabajos previos de condicionamiento de movimiento, esta representación flexible puede codificar cualquier cantidad de trayectorias, movimiento específico de objetos o movimiento global de escena, y movimiento temporalmente disperso; debido a su flexibilidad, nos referimos a este condicionamiento como indicaciones de movimiento. Mientras los usuarios pueden especificar directamente trayectorias dispersas, también mostramos cómo traducir solicitudes de usuarios de alto nivel en indicaciones de movimiento detalladas y semi-densas, un proceso que denominamos expansión de indicaciones de movimiento. Demostramos la versatilidad de nuestro enfoque a través de varias aplicaciones, incluyendo control de movimiento de cámara y objetos, "interactuar" con una imagen, transferencia de movimiento y edición de imágenes. Nuestros resultados muestran comportamientos emergentes, como física realista, lo que sugiere el potencial de las indicaciones de movimiento para explorar modelos de video e interactuar con futuros modelos generativos del mundo. Finalmente, evaluamos cuantitativamente, realizamos un estudio humano y demostramos un rendimiento sólido. Los resultados en video están disponibles en nuestra página web: https://motion-prompting.github.io/

English

Motion control is crucial for generating expressive and compelling video content; however, most existing video generation models rely mainly on text prompts for control, which struggle to capture the nuances of dynamic actions and temporal compositions. To this end, we train a video generation model conditioned on spatio-temporally sparse or dense motion trajectories. In contrast to prior motion conditioning work, this flexible representation can encode any number of trajectories, object-specific or global scene motion, and temporally sparse motion; due to its flexibility we refer to this conditioning as motion prompts. While users may directly specify sparse trajectories, we also show how to translate high-level user requests into detailed, semi-dense motion prompts, a process we term motion prompt expansion. We demonstrate the versatility of our approach through various applications, including camera and object motion control, "interacting" with an image, motion transfer, and image editing. Our results showcase emergent behaviors, such as realistic physics, suggesting the potential of motion prompts for probing video models and interacting with future generative world models. Finally, we evaluate quantitatively, conduct a human study, and demonstrate strong performance. Video results are available on our webpage: https://motion-prompting.github.io/

Estímulo de Movimiento: Controlando la Generación de Video con Trayectorias de Movimiento

Motion Prompting: Controlling Video Generation with Motion Trajectories

Resumen

Support