Стимулирование движения: Управление генерацией видео с помощью траекторий движения.
Motion Prompting: Controlling Video Generation with Motion Trajectories
December 3, 2024
Авторы: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI
Аннотация
Управление движением является ключевым элементом для создания выразительного и убедительного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет улавливание тонких нюансов динамических действий и временных композиций. В этом контексте мы обучаем модель генерации видео, условно зависящую от разреженных или плотных пространственно-временных траекторий движения. В отличие от предыдущих работ по условному управлению движением, эта гибкая репрезентация способна кодировать любое количество траекторий, движение объектов или глобальное движение сцены, а также временно разреженное движение; благодаря своей гибкости мы называем это условие "подсказками движения". Хотя пользователи могут непосредственно указывать разреженные траектории, мы также показываем, как преобразовать запросы пользователей высокого уровня в детализированные, полу-плотные подсказки движения, процесс, который мы называем расширением подсказок движения. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты показывают возникающие поведенческие особенности, такие как реалистичная физика, указывая на потенциал подсказок движения для исследования видеомоделей и взаимодействия с будущими генеративными моделями мира. Наконец, мы проводим количественную оценку, проводим исследование с участием людей и демонстрируем высокую производительность. Видеорезультаты доступны на нашем веб-сайте: https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video
content; however, most existing video generation models rely mainly on text
prompts for control, which struggle to capture the nuances of dynamic actions
and temporal compositions. To this end, we train a video generation model
conditioned on spatio-temporally sparse or dense motion trajectories. In
contrast to prior motion conditioning work, this flexible representation can
encode any number of trajectories, object-specific or global scene motion, and
temporally sparse motion; due to its flexibility we refer to this conditioning
as motion prompts. While users may directly specify sparse trajectories, we
also show how to translate high-level user requests into detailed, semi-dense
motion prompts, a process we term motion prompt expansion. We demonstrate the
versatility of our approach through various applications, including camera and
object motion control, "interacting" with an image, motion transfer, and image
editing. Our results showcase emergent behaviors, such as realistic physics,
suggesting the potential of motion prompts for probing video models and
interacting with future generative world models. Finally, we evaluate
quantitatively, conduct a human study, and demonstrate strong performance.
Video results are available on our webpage: https://motion-prompting.github.io/Summary
AI-Generated Summary