MotionDirector: Настройка движения в моделях диффузии для генерации видео из текста
MotionDirector: Motion Customization of Text-to-Video Diffusion Models
October 12, 2023
Авторы: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI
Аннотация
Крупномасштабные предобученные диффузионные модели продемонстрировали выдающиеся способности в генерации разнообразных видео. Задача Motion Customization заключается в адаптации существующих текстово-видео диффузионных моделей для создания видео с заданным движением, используя набор видеоклипов с одинаковой концепцией движения. Например, генерация видео с автомобилем, движущимся определенным образом под заданными движениями камеры для создания фильма, или видео, иллюстрирующего, как медведь поднимает штангу, чтобы вдохновить создателей. Методы адаптации были разработаны для настройки внешнего вида, такого как объект или стиль, но еще не исследованы для движения. Основные методы адаптации, включая полную настройку модели, параметрически эффективную настройку дополнительных слоев и Low-Rank Adaptions (LoRAs), можно легко расширить для настройки движения. Однако концепция движения, изученная этими методами, часто связана с ограниченными внешними видами в обучающих видео, что затрудняет обобщение настроенного движения на другие внешние виды. Чтобы преодолеть эту проблему, мы предлагаем MotionDirector с архитектурой dual-path LoRAs для разделения обучения внешнего вида и движения. Кроме того, мы разрабатываем новый временной loss, уменьшающий влияние внешнего вида на временную цель обучения. Экспериментальные результаты показывают, что предложенный метод может генерировать видео с разнообразными внешними видами для настроенных движений. Наш метод также поддерживает различные приложения, такие как смешивание разных видео с их внешним видом и движением соответственно, а также анимацию одного изображения с настроенными движениями. Наш код и веса модели будут опубликованы.
English
Large-scale pre-trained diffusion models have exhibited remarkable
capabilities in diverse video generations. Given a set of video clips of the
same motion concept, the task of Motion Customization is to adapt existing
text-to-video diffusion models to generate videos with this motion. For
example, generating a video with a car moving in a prescribed manner under
specific camera movements to make a movie, or a video illustrating how a bear
would lift weights to inspire creators. Adaptation methods have been developed
for customizing appearance like subject or style, yet unexplored for motion. It
is straightforward to extend mainstream adaption methods for motion
customization, including full model tuning, parameter-efficient tuning of
additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept
learned by these methods is often coupled with the limited appearances in the
training videos, making it difficult to generalize the customized motion to
other appearances. To overcome this challenge, we propose MotionDirector, with
a dual-path LoRAs architecture to decouple the learning of appearance and
motion. Further, we design a novel appearance-debiased temporal loss to
mitigate the influence of appearance on the temporal training objective.
Experimental results show the proposed method can generate videos of diverse
appearances for the customized motions. Our method also supports various
downstream applications, such as the mixing of different videos with their
appearance and motion respectively, and animating a single image with
customized motions. Our code and model weights will be released.