Direct-a-Video: Создание персонализированных видео с управляемым пользователем движением камеры и объектов
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
February 5, 2024
Авторы: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI
Аннотация
Недавние модели диффузии для создания видео из текста достигли впечатляющих успехов. На практике пользователи часто хотят иметь возможность независимо управлять движением объектов и перемещением камеры для создания персонализированных видео. Однако текущие методы не уделяют достаточного внимания раздельному управлению движением объектов и перемещением камеры в развязанном режиме, что ограничивает управляемость и гибкость моделей текста в видео. В данной статье мы представляем Direct-a-Video — систему, которая позволяет пользователям независимо задавать движения для одного или нескольких объектов и/или перемещений камеры, как при режиссуре видео. Мы предлагаем простую, но эффективную стратегию для развязанного управления движением объектов и перемещением камеры. Движение объектов контролируется через модуляцию пространственного кросс-внимания с использованием внутренних априорных данных модели, что не требует дополнительной оптимизации. Для перемещения камеры мы вводим новые временные слои кросс-внимания для интерпретации количественных параметров перемещения камеры. Мы также используем подход, основанный на аугментации, для обучения этих слоев в самообучающемся режиме на небольшом наборе данных, что устраняет необходимость в явной аннотации движения. Оба компонента работают независимо, позволяя осуществлять индивидуальное или комбинированное управление, и могут обобщаться на открытые сценарии. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего метода. Страница проекта: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.