Personalização de Movimento em Modelos de Difusão de Texto para Vídeo
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Autores: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Resumo
Apresentamos uma abordagem para aprimorar modelos de geração de texto-para-vídeo com movimentos personalizados, ampliando suas capacidades além dos movimentos representados nos dados de treinamento originais. Ao utilizar alguns exemplos de vídeo que demonstram movimentos específicos como entrada, nosso método aprende e generaliza os padrões de movimento da entrada para diversos cenários especificados por texto. Nossas contribuições são triplas. Primeiro, para alcançar nossos resultados, ajustamos um modelo existente de texto-para-vídeo para aprender um novo mapeamento entre o movimento representado nos exemplos de entrada e um novo token único. Para evitar o sobreajuste ao novo movimento personalizado, introduzimos uma abordagem de regularização sobre os vídeos. Segundo, ao aproveitar os pré-conhecimentos de movimento em um modelo pré-treinado, nosso método pode produzir vídeos inéditos com várias pessoas realizando o movimento personalizado, e pode invocar o movimento em combinação com outros movimentos. Além disso, nossa abordagem se estende à personalização multimodal do movimento e da aparência de sujeitos individualizados, permitindo a geração de vídeos com personagens únicos e movimentos distintos. Terceiro, para validar nosso método, introduzimos uma abordagem para avaliar quantitativamente o movimento personalizado aprendido e realizamos um estudo de ablação sistemático. Demonstramos que nosso método supera significativamente as abordagens anteriores de personalização baseada em aparência quando estendidas à tarefa de personalização de movimento.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.