Het aanpassen van beweging in tekst-naar-video diffusiemodellen
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Auteurs: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Samenvatting
We introduceren een aanpak om tekst-naar-video-generatiemodellen uit te breiden met
aangepaste bewegingen, waardoor hun mogelijkheden verder gaan dan de bewegingen die in
de originele trainingsdata zijn weergegeven. Door gebruik te maken van enkele video's die
specifieke bewegingen demonstreren als invoer, leert onze methode de ingevoerde
bewegingspatronen en generaliseert deze voor diverse, tekstgespecificeerde scenario's. Onze
bijdragen zijn drievoudig. Ten eerste finetunen we een bestaand tekst-naar-video-model om
een nieuwe mapping te leren tussen de weergegeven beweging in de invoervoorbeelden en
een nieuw uniek token. Om overfitting aan de nieuwe aangepaste beweging te voorkomen,
introduceren we een aanpak voor regularisatie over video's. Ten tweede kan onze methode,
door gebruik te maken van de bewegingsprioriteiten in een voorgetraind model, nieuwe
video's produceren waarin meerdere personen de aangepaste beweging uitvoeren, en kan de
beweging in combinatie met andere bewegingen worden opgeroepen. Bovendien breidt onze
aanpak zich uit tot de multimodale aanpassing van beweging en uiterlijk van individuele
onderwerpen, waardoor het genereren van video's met unieke personages en onderscheidende
bewegingen mogelijk wordt. Ten derde introduceren we, om onze methode te valideren, een
aanpak voor het kwantitatief evalueren van de geleerde aangepaste beweging en voeren we
een systematische ablatiestudie uit. We tonen aan dat onze methode aanzienlijk beter
presteert dan eerdere op uiterlijk gebaseerde aanpassingsbenaderingen wanneer deze worden
uitgebreid naar de taak van bewegingaanpassing.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.