MotionDirector : Personnalisation du mouvement dans les modèles de diffusion texte-vidéo
MotionDirector: Motion Customization of Text-to-Video Diffusion Models
October 12, 2023
Auteurs: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI
Résumé
Les modèles de diffusion pré-entraînés à grande échelle ont démontré des capacités remarquables dans la génération de vidéos diversifiées. Étant donné un ensemble de clips vidéo illustrant le même concept de mouvement, la tâche de Personnalisation du Mouvement consiste à adapter les modèles de diffusion texte-à-vidéo existants pour générer des vidéos avec ce mouvement. Par exemple, générer une vidéo d'une voiture se déplaçant d'une manière spécifique sous des mouvements de caméra particuliers pour réaliser un film, ou une vidéo montrant comment un ours soulèverait des poids pour inspirer les créateurs. Des méthodes d'adaptation ont été développées pour personnaliser l'apparence, comme le sujet ou le style, mais elles n'ont pas encore été explorées pour le mouvement. Il est simple d'étendre les principales méthodes d'adaptation pour la personnalisation du mouvement, incluant l'ajustement complet du modèle, l'ajustement paramétrique efficace de couches supplémentaires, et les Adaptations de Bas Rang (LoRAs). Cependant, le concept de mouvement appris par ces méthodes est souvent couplé aux apparences limitées des vidéos d'entraînement, rendant difficile la généralisation du mouvement personnalisé à d'autres apparences. Pour surmonter ce défi, nous proposons MotionDirector, avec une architecture LoRAs à double chemin pour découpler l'apprentissage de l'apparence et du mouvement. De plus, nous concevons une nouvelle fonction de perte temporelle débiaisée par l'apparence pour atténuer l'influence de l'apparence sur l'objectif d'entraînement temporel. Les résultats expérimentaux montrent que la méthode proposée peut générer des vidéos d'apparences diverses pour les mouvements personnalisés. Notre méthode prend également en charge diverses applications en aval, comme le mélange de différentes vidéos avec leurs apparences et mouvements respectifs, et l'animation d'une seule image avec des mouvements personnalisés. Notre code et les poids du modèle seront publiés.
English
Large-scale pre-trained diffusion models have exhibited remarkable
capabilities in diverse video generations. Given a set of video clips of the
same motion concept, the task of Motion Customization is to adapt existing
text-to-video diffusion models to generate videos with this motion. For
example, generating a video with a car moving in a prescribed manner under
specific camera movements to make a movie, or a video illustrating how a bear
would lift weights to inspire creators. Adaptation methods have been developed
for customizing appearance like subject or style, yet unexplored for motion. It
is straightforward to extend mainstream adaption methods for motion
customization, including full model tuning, parameter-efficient tuning of
additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept
learned by these methods is often coupled with the limited appearances in the
training videos, making it difficult to generalize the customized motion to
other appearances. To overcome this challenge, we propose MotionDirector, with
a dual-path LoRAs architecture to decouple the learning of appearance and
motion. Further, we design a novel appearance-debiased temporal loss to
mitigate the influence of appearance on the temporal training objective.
Experimental results show the proposed method can generate videos of diverse
appearances for the customized motions. Our method also supports various
downstream applications, such as the mixing of different videos with their
appearance and motion respectively, and animating a single image with
customized motions. Our code and model weights will be released.