MotionDirector : Personnalisation du mouvement dans les modèles de diffusion texte-vidéo

papers.abstract

Les modèles de diffusion pré-entraînés à grande échelle ont démontré des capacités remarquables dans la génération de vidéos diversifiées. Étant donné un ensemble de clips vidéo illustrant le même concept de mouvement, la tâche de Personnalisation du Mouvement consiste à adapter les modèles de diffusion texte-à-vidéo existants pour générer des vidéos avec ce mouvement. Par exemple, générer une vidéo d'une voiture se déplaçant d'une manière spécifique sous des mouvements de caméra particuliers pour réaliser un film, ou une vidéo montrant comment un ours soulèverait des poids pour inspirer les créateurs. Des méthodes d'adaptation ont été développées pour personnaliser l'apparence, comme le sujet ou le style, mais elles n'ont pas encore été explorées pour le mouvement. Il est simple d'étendre les principales méthodes d'adaptation pour la personnalisation du mouvement, incluant l'ajustement complet du modèle, l'ajustement paramétrique efficace de couches supplémentaires, et les Adaptations de Bas Rang (LoRAs). Cependant, le concept de mouvement appris par ces méthodes est souvent couplé aux apparences limitées des vidéos d'entraînement, rendant difficile la généralisation du mouvement personnalisé à d'autres apparences. Pour surmonter ce défi, nous proposons MotionDirector, avec une architecture LoRAs à double chemin pour découpler l'apprentissage de l'apparence et du mouvement. De plus, nous concevons une nouvelle fonction de perte temporelle débiaisée par l'apparence pour atténuer l'influence de l'apparence sur l'objectif d'entraînement temporel. Les résultats expérimentaux montrent que la méthode proposée peut générer des vidéos d'apparences diverses pour les mouvements personnalisés. Notre méthode prend également en charge diverses applications en aval, comme le mélange de différentes vidéos avec leurs apparences et mouvements respectifs, et l'animation d'une seule image avec des mouvements personnalisés. Notre code et les poids du modèle seront publiés.

English

Large-scale pre-trained diffusion models have exhibited remarkable capabilities in diverse video generations. Given a set of video clips of the same motion concept, the task of Motion Customization is to adapt existing text-to-video diffusion models to generate videos with this motion. For example, generating a video with a car moving in a prescribed manner under specific camera movements to make a movie, or a video illustrating how a bear would lift weights to inspire creators. Adaptation methods have been developed for customizing appearance like subject or style, yet unexplored for motion. It is straightforward to extend mainstream adaption methods for motion customization, including full model tuning, parameter-efficient tuning of additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept learned by these methods is often coupled with the limited appearances in the training videos, making it difficult to generalize the customized motion to other appearances. To overcome this challenge, we propose MotionDirector, with a dual-path LoRAs architecture to decouple the learning of appearance and motion. Further, we design a novel appearance-debiased temporal loss to mitigate the influence of appearance on the temporal training objective. Experimental results show the proposed method can generate videos of diverse appearances for the customized motions. Our method also supports various downstream applications, such as the mixing of different videos with their appearance and motion respectively, and animating a single image with customized motions. Our code and model weights will be released.

MotionDirector : Personnalisation du mouvement dans les modèles de diffusion texte-vidéo

MotionDirector: Motion Customization of Text-to-Video Diffusion Models

papers.abstract

Support