ChatPaper.aiChatPaper

MotionDirector: Bewegungsanpassung von Text-zu-Video-Diffusionsmodellen

MotionDirector: Motion Customization of Text-to-Video Diffusion Models

October 12, 2023
Autoren: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
cs.AI

Zusammenfassung

Große vortrainierte Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Erzeugung verschiedener Videos gezeigt. Gegeben eine Reihe von Videoclips mit demselben Bewegungskonzept, besteht die Aufgabe der Bewegungsanpassung darin, bestehende Text-zu-Video-Diffusionsmodelle so anzupassen, dass sie Videos mit dieser Bewegung erzeugen. Zum Beispiel die Erstellung eines Videos, in dem ein Auto auf eine bestimmte Weise unter spezifischen Kamerabewegungen fährt, um einen Film zu machen, oder ein Video, das zeigt, wie ein Bär Gewichte hebt, um Kreative zu inspirieren. Anpassungsmethoden wurden für die Individualisierung von Erscheinungsbildern wie Subjekten oder Stilen entwickelt, jedoch noch nicht für Bewegungen. Es ist naheliegend, gängige Anpassungsmethoden für die Bewegungsanpassung zu erweitern, einschließlich des vollständigen Modelltunings, des parameter-effizienten Tunings zusätzlicher Schichten und der Low-Rank-Adaptionen (LoRAs). Das von diesen Methoden erlernte Bewegungskonzept ist jedoch oft mit den begrenzten Erscheinungsbildern in den Trainingsvideos gekoppelt, was es schwierig macht, die angepasste Bewegung auf andere Erscheinungsbilder zu verallgemeinern. Um diese Herausforderung zu bewältigen, schlagen wir MotionDirector vor, mit einer Dual-Path-LoRAs-Architektur, um das Lernen von Erscheinungsbild und Bewegung zu entkoppeln. Darüber hinaus entwerfen wir einen neuartigen erscheinungsbild-entzerrten temporalen Verlust, um den Einfluss des Erscheinungsbildes auf das zeitliche Trainingsziel zu mildern. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode Videos mit verschiedenen Erscheinungsbildern für die angepassten Bewegungen erzeugen kann. Unsere Methode unterstützt auch verschiedene Downstream-Anwendungen, wie das Mischen verschiedener Videos mit ihren jeweiligen Erscheinungsbildern und Bewegungen sowie das Animieren eines einzelnen Bildes mit angepassten Bewegungen. Unser Code und unsere Modellgewichte werden veröffentlicht.
English
Large-scale pre-trained diffusion models have exhibited remarkable capabilities in diverse video generations. Given a set of video clips of the same motion concept, the task of Motion Customization is to adapt existing text-to-video diffusion models to generate videos with this motion. For example, generating a video with a car moving in a prescribed manner under specific camera movements to make a movie, or a video illustrating how a bear would lift weights to inspire creators. Adaptation methods have been developed for customizing appearance like subject or style, yet unexplored for motion. It is straightforward to extend mainstream adaption methods for motion customization, including full model tuning, parameter-efficient tuning of additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept learned by these methods is often coupled with the limited appearances in the training videos, making it difficult to generalize the customized motion to other appearances. To overcome this challenge, we propose MotionDirector, with a dual-path LoRAs architecture to decouple the learning of appearance and motion. Further, we design a novel appearance-debiased temporal loss to mitigate the influence of appearance on the temporal training objective. Experimental results show the proposed method can generate videos of diverse appearances for the customized motions. Our method also supports various downstream applications, such as the mixing of different videos with their appearance and motion respectively, and animating a single image with customized motions. Our code and model weights will be released.
PDF165December 15, 2024