MotionDirector: Personalizzazione del Movimento nei Modelli di Diffusione da Testo a Video
MotionDirector: Motion Customization of Text-to-Video Diffusion Models
October 12, 2023
Autori: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI
Abstract
I modelli di diffusione pre-addestrati su larga scala hanno dimostrato capacità straordinarie nella generazione di video diversificati. Dato un insieme di clip video che rappresentano lo stesso concetto di movimento, il compito della Personalizzazione del Movimento consiste nell'adattare i modelli di diffusione testo-video esistenti per generare video con questo movimento. Ad esempio, generare un video in cui un'auto si muove in un modo specifico sotto particolari movimenti della telecamera per realizzare un film, o un video che illustra come un orso solleverebbe pesi per ispirare i creatori. Sono stati sviluppati metodi di adattamento per personalizzare l'aspetto, come il soggetto o lo stile, ma non sono ancora stati esplorati per il movimento. È semplice estendere i principali metodi di adattamento per la personalizzazione del movimento, inclusi la regolazione completa del modello, la regolazione efficiente dei parametri di strati aggiuntivi e le Adattazioni a Basso Rango (LoRAs). Tuttavia, il concetto di movimento appreso da questi metodi è spesso accoppiato con gli aspetti limitati presenti nei video di addestramento, rendendo difficile generalizzare il movimento personalizzato ad altri aspetti. Per superare questa sfida, proponiamo MotionDirector, con un'architettura a doppio percorso LoRAs per separare l'apprendimento dell'aspetto e del movimento. Inoltre, progettiamo una nuova funzione di perdita temporale sbilanciata sull'aspetto per mitigare l'influenza dell'aspetto sull'obiettivo di addestramento temporale. I risultati sperimentali mostrano che il metodo proposto può generare video con aspetti diversificati per i movimenti personalizzati. Il nostro metodo supporta anche varie applicazioni downstream, come la combinazione di diversi video con i rispettivi aspetti e movimenti, e l'animazione di una singola immagine con movimenti personalizzati. Il nostro codice e i pesi del modello saranno rilasciati.
English
Large-scale pre-trained diffusion models have exhibited remarkable
capabilities in diverse video generations. Given a set of video clips of the
same motion concept, the task of Motion Customization is to adapt existing
text-to-video diffusion models to generate videos with this motion. For
example, generating a video with a car moving in a prescribed manner under
specific camera movements to make a movie, or a video illustrating how a bear
would lift weights to inspire creators. Adaptation methods have been developed
for customizing appearance like subject or style, yet unexplored for motion. It
is straightforward to extend mainstream adaption methods for motion
customization, including full model tuning, parameter-efficient tuning of
additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept
learned by these methods is often coupled with the limited appearances in the
training videos, making it difficult to generalize the customized motion to
other appearances. To overcome this challenge, we propose MotionDirector, with
a dual-path LoRAs architecture to decouple the learning of appearance and
motion. Further, we design a novel appearance-debiased temporal loss to
mitigate the influence of appearance on the temporal training objective.
Experimental results show the proposed method can generate videos of diverse
appearances for the customized motions. Our method also supports various
downstream applications, such as the mixing of different videos with their
appearance and motion respectively, and animating a single image with
customized motions. Our code and model weights will be released.