ChatPaper.aiChatPaper

Direct-a-Video: Geração de Vídeos Personalizados com Movimento de Câmera e Movimento de Objetos Direcionados pelo Usuário

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

February 5, 2024
Autores: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI

Resumo

Modelos recentes de difusão de texto para vídeo têm alcançado progressos impressionantes. Na prática, os usuários frequentemente desejam a capacidade de controlar o movimento de objetos e a movimentação da câmera de forma independente para a criação de vídeos personalizados. No entanto, os métodos atuais não focam no controle separado do movimento de objetos e da movimentação da câmera de maneira desacoplada, o que limita a controlabilidade e a flexibilidade dos modelos de texto para vídeo. Neste artigo, apresentamos o Direct-a-Video, um sistema que permite aos usuários especificar de forma independente movimentos para um ou vários objetos e/ou movimentações da câmera, como se estivessem dirigindo um vídeo. Propomos uma estratégia simples, porém eficaz, para o controle desacoplado do movimento de objetos e da movimentação da câmera. O movimento dos objetos é controlado por meio da modulação de atenção cruzada espacial utilizando os priors inerentes do modelo, sem a necessidade de otimização adicional. Para a movimentação da câmera, introduzimos novas camadas de atenção cruzada temporal para interpretar parâmetros quantitativos de movimentação da câmera. Além disso, empregamos uma abordagem baseada em aumento para treinar essas camadas de forma auto-supervisionada em um conjunto de dados de pequena escala, eliminando a necessidade de anotação explícita de movimento. Ambos os componentes operam de forma independente, permitindo controle individual ou combinado, e podem generalizar para cenários de domínio aberto. Experimentos extensivos demonstram a superioridade e a eficácia do nosso método. Página do projeto: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for one or multiple objects and/or camera movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page: https://direct-a-video.github.io/.
PDF191December 15, 2024