MotionDirector: Personalização de Movimento em Modelos de Difusão de Texto para Vídeo

Resumo

Modelos de difusão pré-treinados em grande escala têm demonstrado capacidades notáveis em diversas gerações de vídeos. Dado um conjunto de clipes de vídeo do mesmo conceito de movimento, a tarefa de Personalização de Movimento consiste em adaptar os modelos de difusão de texto para vídeo existentes para gerar vídeos com esse movimento. Por exemplo, gerar um vídeo com um carro se movendo de uma maneira prescrita sob movimentos específicos da câmera para criar um filme, ou um vídeo ilustrando como um urso levantaria pesos para inspirar criadores. Métodos de adaptação foram desenvolvidos para personalizar aparências, como sujeito ou estilo, mas ainda não foram explorados para movimento. É direto estender os principais métodos de adaptação para personalização de movimento, incluindo ajuste completo do modelo, ajuste eficiente em parâmetros de camadas adicionais e Adaptações de Baixa Classificação (LoRAs). No entanto, o conceito de movimento aprendido por esses métodos frequentemente está acoplado às aparências limitadas nos vídeos de treinamento, dificultando a generalização do movimento personalizado para outras aparências. Para superar esse desafio, propomos o MotionDirector, com uma arquitetura de LoRAs de caminho duplo para desacoplar o aprendizado de aparência e movimento. Além disso, projetamos uma nova função de perda temporal com viés reduzido de aparência para mitigar a influência da aparência no objetivo de treinamento temporal. Resultados experimentais mostram que o método proposto pode gerar vídeos de diversas aparências para os movimentos personalizados. Nosso método também suporta várias aplicações subsequentes, como a mistura de diferentes vídeos com suas aparências e movimentos respectivamente, e a animação de uma única imagem com movimentos personalizados. Nosso código e pesos do modelo serão disponibilizados.

English

Large-scale pre-trained diffusion models have exhibited remarkable capabilities in diverse video generations. Given a set of video clips of the same motion concept, the task of Motion Customization is to adapt existing text-to-video diffusion models to generate videos with this motion. For example, generating a video with a car moving in a prescribed manner under specific camera movements to make a movie, or a video illustrating how a bear would lift weights to inspire creators. Adaptation methods have been developed for customizing appearance like subject or style, yet unexplored for motion. It is straightforward to extend mainstream adaption methods for motion customization, including full model tuning, parameter-efficient tuning of additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept learned by these methods is often coupled with the limited appearances in the training videos, making it difficult to generalize the customized motion to other appearances. To overcome this challenge, we propose MotionDirector, with a dual-path LoRAs architecture to decouple the learning of appearance and motion. Further, we design a novel appearance-debiased temporal loss to mitigate the influence of appearance on the temporal training objective. Experimental results show the proposed method can generate videos of diverse appearances for the customized motions. Our method also supports various downstream applications, such as the mixing of different videos with their appearance and motion respectively, and animating a single image with customized motions. Our code and model weights will be released.

MotionDirector: Personalização de Movimento em Modelos de Difusão de Texto para Vídeo

MotionDirector: Motion Customization of Text-to-Video Diffusion Models

Resumo

Support