Anpassung von Bewegung in Text-zu-Video-Diffusionsmodellen
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Autoren: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Zusammenfassung
Wir stellen einen Ansatz vor, um Text-zu-Video-Generierungsmodelle mit individuellen Bewegungen zu erweitern und ihre Fähigkeiten über die in den ursprünglichen Trainingsdaten dargestellten Bewegungen hinaus auszubauen. Indem wir einige Video-Beispiele, die spezifische Bewegungen demonstrieren, als Eingabe nutzen, lernt unsere Methode die Bewegungsmuster der Eingabe und verallgemeinert sie für verschiedene, textbeschriebene Szenarien. Unsere Beiträge sind dreifach. Erstens, um unsere Ergebnisse zu erzielen, feintunen wir ein bestehendes Text-zu-Video-Modell, um eine neuartige Abbildung zwischen der dargestellten Bewegung in den Eingabebeispielen und einem neuen eindeutigen Token zu erlernen. Um eine Überanpassung an die neue benutzerdefinierte Bewegung zu vermeiden, führen wir einen Ansatz zur Regularisierung über Videos ein. Zweitens, indem wir die Bewegungs-Priors eines vortrainierten Modells nutzen, kann unsere Methode neue Videos erzeugen, die mehrere Personen zeigen, die die benutzerdefinierte Bewegung ausführen, und kann die Bewegung in Kombination mit anderen Bewegungen aufrufen. Darüber hinaus erstreckt sich unser Ansatz auf die multimodale Anpassung von Bewegung und Aussehen individueller Subjekte, wodurch die Generierung von Videos mit einzigartigen Charakteren und unterschiedlichen Bewegungen ermöglicht wird. Drittens, um unsere Methode zu validieren, führen wir einen Ansatz zur quantitativen Bewertung der gelernten benutzerdefinierten Bewegung ein und führen eine systematische Ablationsstudie durch. Wir zeigen, dass unsere Methode frühere, auf das Aussehen basierende Anpassungsansätze deutlich übertrifft, wenn sie auf die Aufgabe der Bewegungsanpassung erweitert wird.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.