Personalizzazione del movimento nei modelli di diffusione per la generazione di video da testo
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Autori: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Abstract
Introduciamo un approccio per potenziare i modelli di generazione testo-video con movimenti personalizzati, estendendo le loro capacità oltre i movimenti rappresentati nei dati di addestramento originali. Sfruttando alcuni campioni video che dimostrano movimenti specifici come input, il nostro metodo apprende e generalizza i modelli di movimento per scenari diversi specificati dal testo. I nostri contributi sono tre. Innanzitutto, per ottenere i nostri risultati, ottimizziamo un modello testo-video esistente per apprendere una nuova mappatura tra il movimento rappresentato negli esempi di input e un nuovo token unico. Per evitare l'overfitting sul nuovo movimento personalizzato, introduciamo un approccio di regolarizzazione sui video. In secondo luogo, sfruttando i precedenti di movimento in un modello pre-addestrato, il nostro metodo può produrre nuovi video che presentano più persone che eseguono il movimento personalizzato e può invocare il movimento in combinazione con altri movimenti. Inoltre, il nostro approccio si estende alla personalizzazione multimodale del movimento e dell'aspetto di soggetti individualizzati, consentendo la generazione di video con personaggi unici e movimenti distinti. Terzo, per validare il nostro metodo, introduciamo un approccio per valutare quantitativamente il movimento personalizzato appreso e conduciamo uno studio di ablazione sistematico. Dimostriamo che il nostro metodo supera significativamente i precedenti approcci di personalizzazione basati sull'aspetto quando estesi al compito di personalizzazione del movimento.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.