MotionDirector: Personalização de Movimento em Modelos de Difusão de Texto para Vídeo
MotionDirector: Motion Customization of Text-to-Video Diffusion Models
October 12, 2023
Autores: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI
Resumo
Modelos de difusão pré-treinados em grande escala têm demonstrado capacidades notáveis em diversas gerações de vídeos. Dado um conjunto de clipes de vídeo do mesmo conceito de movimento, a tarefa de Personalização de Movimento consiste em adaptar os modelos de difusão de texto para vídeo existentes para gerar vídeos com esse movimento. Por exemplo, gerar um vídeo com um carro se movendo de uma maneira prescrita sob movimentos específicos da câmera para criar um filme, ou um vídeo ilustrando como um urso levantaria pesos para inspirar criadores. Métodos de adaptação foram desenvolvidos para personalizar aparências, como sujeito ou estilo, mas ainda não foram explorados para movimento. É direto estender os principais métodos de adaptação para personalização de movimento, incluindo ajuste completo do modelo, ajuste eficiente em parâmetros de camadas adicionais e Adaptações de Baixa Classificação (LoRAs). No entanto, o conceito de movimento aprendido por esses métodos frequentemente está acoplado às aparências limitadas nos vídeos de treinamento, dificultando a generalização do movimento personalizado para outras aparências. Para superar esse desafio, propomos o MotionDirector, com uma arquitetura de LoRAs de caminho duplo para desacoplar o aprendizado de aparência e movimento. Além disso, projetamos uma nova função de perda temporal com viés reduzido de aparência para mitigar a influência da aparência no objetivo de treinamento temporal. Resultados experimentais mostram que o método proposto pode gerar vídeos de diversas aparências para os movimentos personalizados. Nosso método também suporta várias aplicações subsequentes, como a mistura de diferentes vídeos com suas aparências e movimentos respectivamente, e a animação de uma única imagem com movimentos personalizados. Nosso código e pesos do modelo serão disponibilizados.
English
Large-scale pre-trained diffusion models have exhibited remarkable
capabilities in diverse video generations. Given a set of video clips of the
same motion concept, the task of Motion Customization is to adapt existing
text-to-video diffusion models to generate videos with this motion. For
example, generating a video with a car moving in a prescribed manner under
specific camera movements to make a movie, or a video illustrating how a bear
would lift weights to inspire creators. Adaptation methods have been developed
for customizing appearance like subject or style, yet unexplored for motion. It
is straightforward to extend mainstream adaption methods for motion
customization, including full model tuning, parameter-efficient tuning of
additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept
learned by these methods is often coupled with the limited appearances in the
training videos, making it difficult to generalize the customized motion to
other appearances. To overcome this challenge, we propose MotionDirector, with
a dual-path LoRAs architecture to decouple the learning of appearance and
motion. Further, we design a novel appearance-debiased temporal loss to
mitigate the influence of appearance on the temporal training objective.
Experimental results show the proposed method can generate videos of diverse
appearances for the customized motions. Our method also supports various
downstream applications, such as the mixing of different videos with their
appearance and motion respectively, and animating a single image with
customized motions. Our code and model weights will be released.