Personalización del Movimiento en Modelos de Difusión de Texto a Video
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Autores: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Resumen
Presentamos un enfoque para aumentar los modelos de generación de texto a video con movimientos personalizados, ampliando sus capacidades más allá de los movimientos representados en los datos de entrenamiento originales. Al aprovechar algunos ejemplos de video que demuestran movimientos específicos como entrada, nuestro método aprende y generaliza los patrones de movimiento de entrada para diversos escenarios especificados por texto. Nuestras contribuciones son tres. Primero, para lograr nuestros resultados, ajustamos un modelo existente de texto a video para aprender un mapeo novedoso entre el movimiento representado en los ejemplos de entrada y un nuevo token único. Para evitar el sobreajuste al nuevo movimiento personalizado, introducimos un enfoque de regularización sobre los videos. Segundo, al aprovechar los conocimientos previos de movimiento en un modelo preentrenado, nuestro método puede producir videos novedosos que muestran a múltiples personas realizando el movimiento personalizado, y puede invocar el movimiento en combinación con otros movimientos. Además, nuestro enfoque se extiende a la personalización multimodal del movimiento y la apariencia de sujetos individualizados, permitiendo la generación de videos que presentan personajes únicos y movimientos distintivos. Tercero, para validar nuestro método, introducimos un enfoque para evaluar cuantitativamente el movimiento personalizado aprendido y realizamos un estudio sistemático de ablación. Demostramos que nuestro método supera significativamente los enfoques previos de personalización basados en apariencia cuando se extienden a la tarea de personalización de movimiento.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.