Personnalisation du mouvement dans les modèles de diffusion texte-vidéo
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Auteurs: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Résumé
Nous présentons une approche pour enrichir les modèles de génération de texte-à-vidéo avec des mouvements personnalisés, étendant ainsi leurs capacités au-delà des mouvements représentés dans les données d'entraînement originales. En exploitant quelques échantillons vidéo démontrant des mouvements spécifiques comme entrée, notre méthode apprend et généralise les motifs de mouvement pour divers scénarios spécifiés par du texte. Nos contributions sont triples. Premièrement, pour obtenir nos résultats, nous affinons un modèle texte-à-vidéo existant pour apprendre une nouvelle correspondance entre le mouvement représenté dans les exemples d'entrée et un nouveau token unique. Pour éviter le surajustement au nouveau mouvement personnalisé, nous introduisons une approche de régularisation sur les vidéos. Deuxièmement, en exploitant les connaissances préalables sur le mouvement dans un modèle pré-entraîné, notre méthode peut produire de nouvelles vidéos mettant en scène plusieurs personnes effectuant le mouvement personnalisé, et peut invoquer ce mouvement en combinaison avec d'autres mouvements. De plus, notre approche s'étend à la personnalisation multimodale du mouvement et de l'apparence de sujets individualisés, permettant la génération de vidéos mettant en scène des personnages uniques et des mouvements distincts. Troisièmement, pour valider notre méthode, nous introduisons une approche pour évaluer quantitativement le mouvement personnalisé appris et réalisons une étude d'ablation systématique. Nous montrons que notre méthode surpasse significativement les approches de personnalisation basées sur l'apparence lorsqu'elles sont étendues à la tâche de personnalisation du mouvement.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.