ChatPaper.aiChatPaper

MotionDirector: Bewegingsaanpassing van tekst-naar-video diffusiemodellen

MotionDirector: Motion Customization of Text-to-Video Diffusion Models

October 12, 2023
Auteurs: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI

Samenvatting

Grootschalige vooraf getrainde diffusiemodellen hebben opmerkelijke mogelijkheden getoond in diverse videogeneraties. Gegeven een set videoclips van hetzelfde bewegingsconcept, is de taak van Bewegingsaanpassing om bestaande tekst-naar-video diffusiemodellen aan te passen om video's met deze beweging te genereren. Bijvoorbeeld, het genereren van een video waarin een auto op een voorgeschreven manier beweegt onder specifieke camerabewegingen om een film te maken, of een video die illustreert hoe een beer gewichten zou tillen om makers te inspireren. Aanpassingsmethoden zijn ontwikkeld voor het aanpassen van uiterlijk, zoals onderwerp of stijl, maar zijn nog niet verkend voor beweging. Het is eenvoudig om mainstream aanpassingsmethoden uit te breiden voor bewegingsaanpassing, inclusief volledige modelafstemming, parameter-efficiënte afstemming van extra lagen, en Low-Rank Aanpassingen (LoRAs). Het bewegingsconcept dat door deze methoden wordt geleerd, is echter vaak gekoppeld aan de beperkte uiterlijken in de trainingsvideo's, waardoor het moeilijk is om de aangepaste beweging te generaliseren naar andere uiterlijken. Om deze uitdaging te overwinnen, stellen we MotionDirector voor, met een dual-path LoRAs-architectuur om het leren van uiterlijk en beweging te ontkoppelen. Verder ontwerpen we een nieuw uiterlijk-ongebiasd tijdelijk verlies om de invloed van uiterlijk op het tijdelijke trainingsdoel te verminderen. Experimentele resultaten tonen aan dat de voorgestelde methode video's van diverse uiterlijken kan genereren voor de aangepaste bewegingen. Onze methode ondersteunt ook verschillende downstream-toepassingen, zoals het mengen van verschillende video's met hun respectievelijke uiterlijk en beweging, en het animeren van een enkele afbeelding met aangepaste bewegingen. Onze code en modelgewichten zullen worden vrijgegeven.
English
Large-scale pre-trained diffusion models have exhibited remarkable capabilities in diverse video generations. Given a set of video clips of the same motion concept, the task of Motion Customization is to adapt existing text-to-video diffusion models to generate videos with this motion. For example, generating a video with a car moving in a prescribed manner under specific camera movements to make a movie, or a video illustrating how a bear would lift weights to inspire creators. Adaptation methods have been developed for customizing appearance like subject or style, yet unexplored for motion. It is straightforward to extend mainstream adaption methods for motion customization, including full model tuning, parameter-efficient tuning of additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept learned by these methods is often coupled with the limited appearances in the training videos, making it difficult to generalize the customized motion to other appearances. To overcome this challenge, we propose MotionDirector, with a dual-path LoRAs architecture to decouple the learning of appearance and motion. Further, we design a novel appearance-debiased temporal loss to mitigate the influence of appearance on the temporal training objective. Experimental results show the proposed method can generate videos of diverse appearances for the customized motions. Our method also supports various downstream applications, such as the mixing of different videos with their appearance and motion respectively, and animating a single image with customized motions. Our code and model weights will be released.
PDF165December 15, 2024