Direct-a-Video: Generación de videos personalizados con movimiento de cámara y objetos dirigidos por el usuario
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
February 5, 2024
Autores: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI
Resumen
Los recientes modelos de difusión de texto a video han logrado avances impresionantes. En la práctica, los usuarios suelen desear la capacidad de controlar el movimiento de los objetos y el movimiento de la cámara de forma independiente para la creación de videos personalizados. Sin embargo, los métodos actuales carecen de un enfoque en el control separado del movimiento de los objetos y el movimiento de la cámara de manera desacoplada, lo que limita la controlabilidad y flexibilidad de los modelos de texto a video. En este artículo, presentamos Direct-a-Video, un sistema que permite a los usuarios especificar de manera independiente los movimientos para uno o varios objetos y/o movimientos de cámara, como si estuvieran dirigiendo un video. Proponemos una estrategia simple pero efectiva para el control desacoplado del movimiento de los objetos y el movimiento de la cámara. El movimiento de los objetos se controla mediante la modulación de atención cruzada espacial utilizando los conocimientos previos inherentes del modelo, sin necesidad de optimización adicional. Para el movimiento de la cámara, introducimos nuevas capas de atención cruzada temporal para interpretar parámetros cuantitativos de movimiento de la cámara. Además, empleamos un enfoque basado en aumentación para entrenar estas capas de manera autosupervisada en un conjunto de datos a pequeña escala, eliminando la necesidad de anotaciones explícitas de movimiento. Ambos componentes operan de manera independiente, permitiendo el control individual o combinado, y pueden generalizarse a escenarios de dominio abierto. Experimentos extensivos demuestran la superioridad y efectividad de nuestro método. Página del proyecto: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.