ChatPaper.aiChatPaper

Personnalisation du mouvement dans les modèles de diffusion texte-vidéo

Customizing Motion in Text-to-Video Diffusion Models

December 7, 2023
Auteurs: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI

Résumé

Nous présentons une approche pour enrichir les modèles de génération de texte-à-vidéo avec des mouvements personnalisés, étendant ainsi leurs capacités au-delà des mouvements représentés dans les données d'entraînement originales. En exploitant quelques échantillons vidéo démontrant des mouvements spécifiques comme entrée, notre méthode apprend et généralise les motifs de mouvement pour divers scénarios spécifiés par du texte. Nos contributions sont triples. Premièrement, pour obtenir nos résultats, nous affinons un modèle texte-à-vidéo existant pour apprendre une nouvelle correspondance entre le mouvement représenté dans les exemples d'entrée et un nouveau token unique. Pour éviter le surajustement au nouveau mouvement personnalisé, nous introduisons une approche de régularisation sur les vidéos. Deuxièmement, en exploitant les connaissances préalables sur le mouvement dans un modèle pré-entraîné, notre méthode peut produire de nouvelles vidéos mettant en scène plusieurs personnes effectuant le mouvement personnalisé, et peut invoquer ce mouvement en combinaison avec d'autres mouvements. De plus, notre approche s'étend à la personnalisation multimodale du mouvement et de l'apparence de sujets individualisés, permettant la génération de vidéos mettant en scène des personnages uniques et des mouvements distincts. Troisièmement, pour valider notre méthode, nous introduisons une approche pour évaluer quantitativement le mouvement personnalisé appris et réalisons une étude d'ablation systématique. Nous montrons que notre méthode surpasse significativement les approches de personnalisation basées sur l'apparence lorsqu'elles sont étendues à la tâche de personnalisation du mouvement.
English
We introduce an approach for augmenting text-to-video generation models with customized motions, extending their capabilities beyond the motions depicted in the original training data. By leveraging a few video samples demonstrating specific movements as input, our method learns and generalizes the input motion patterns for diverse, text-specified scenarios. Our contributions are threefold. First, to achieve our results, we finetune an existing text-to-video model to learn a novel mapping between the depicted motion in the input examples to a new unique token. To avoid overfitting to the new custom motion, we introduce an approach for regularization over videos. Second, by leveraging the motion priors in a pretrained model, our method can produce novel videos featuring multiple people doing the custom motion, and can invoke the motion in combination with other motions. Furthermore, our approach extends to the multimodal customization of motion and appearance of individualized subjects, enabling the generation of videos featuring unique characters and distinct motions. Third, to validate our method, we introduce an approach for quantitatively evaluating the learned custom motion and perform a systematic ablation study. We show that our method significantly outperforms prior appearance-based customization approaches when extended to the motion customization task.
PDF110December 15, 2024