MotionDirector: Personalización del Movimiento en Modelos de Difusión de Texto a Video
MotionDirector: Motion Customization of Text-to-Video Diffusion Models
October 12, 2023
Autores: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI
Resumen
Los modelos de difusión preentrenados a gran escala han demostrado capacidades notables en la generación diversa de videos. Dado un conjunto de clips de video que representan el mismo concepto de movimiento, la tarea de Personalización de Movimiento consiste en adaptar los modelos de difusión de texto a video existentes para generar videos con dicho movimiento. Por ejemplo, generar un video de un automóvil moviéndose de una manera prescrita bajo movimientos específicos de cámara para crear una película, o un video que ilustre cómo un oso levantaría pesas para inspirar a creadores. Se han desarrollado métodos de adaptación para personalizar aspectos como el sujeto o el estilo, pero aún no se han explorado para el movimiento. Es sencillo extender los métodos principales de adaptación para la personalización de movimiento, incluyendo el ajuste completo del modelo, el ajuste eficiente en parámetros de capas adicionales y las Adaptaciones de Bajo Rango (LoRAs). Sin embargo, el concepto de movimiento aprendido por estos métodos a menudo está acoplado con las apariencias limitadas en los videos de entrenamiento, lo que dificulta generalizar el movimiento personalizado a otras apariencias. Para superar este desafío, proponemos MotionDirector, con una arquitectura de LoRAs de doble vía para desacoplar el aprendizaje de apariencia y movimiento. Además, diseñamos una nueva pérdida temporal desviada de apariencia para mitigar la influencia de la apariencia en el objetivo de entrenamiento temporal. Los resultados experimentales muestran que el método propuesto puede generar videos de diversas apariencias para los movimientos personalizados. Nuestro método también admite varias aplicaciones posteriores, como la mezcla de diferentes videos con su apariencia y movimiento respectivamente, y la animación de una sola imagen con movimientos personalizados. Nuestro código y pesos del modelo serán publicados.
English
Large-scale pre-trained diffusion models have exhibited remarkable
capabilities in diverse video generations. Given a set of video clips of the
same motion concept, the task of Motion Customization is to adapt existing
text-to-video diffusion models to generate videos with this motion. For
example, generating a video with a car moving in a prescribed manner under
specific camera movements to make a movie, or a video illustrating how a bear
would lift weights to inspire creators. Adaptation methods have been developed
for customizing appearance like subject or style, yet unexplored for motion. It
is straightforward to extend mainstream adaption methods for motion
customization, including full model tuning, parameter-efficient tuning of
additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept
learned by these methods is often coupled with the limited appearances in the
training videos, making it difficult to generalize the customized motion to
other appearances. To overcome this challenge, we propose MotionDirector, with
a dual-path LoRAs architecture to decouple the learning of appearance and
motion. Further, we design a novel appearance-debiased temporal loss to
mitigate the influence of appearance on the temporal training objective.
Experimental results show the proposed method can generate videos of diverse
appearances for the customized motions. Our method also supports various
downstream applications, such as the mixing of different videos with their
appearance and motion respectively, and animating a single image with
customized motions. Our code and model weights will be released.