VMC: Personalización de Movimiento en Video mediante Adaptación de Atención Temporal para Modelos de Difusión de Texto a Video
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models
December 1, 2023
Autores: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI
Resumen
Los modelos de difusión de texto a video han avanzado significativamente en la generación de videos. Sin embargo, personalizar estos modelos para generar videos con movimientos específicos representa un desafío considerable. En particular, enfrentan obstáculos en (a) reproducir con precisión el movimiento de un video objetivo y (b) crear variaciones visuales diversas. Por ejemplo, las extensiones directas de los métodos de personalización de imágenes estáticas al video a menudo resultan en enredos complejos entre los datos de apariencia y movimiento. Para abordar esto, presentamos el marco de Personalización de Movimiento de Video (VMC, por sus siglas en inglés), un enfoque novedoso de ajuste en una sola toma diseñado para adaptar las capas de atención temporal dentro de los modelos de difusión de video. Nuestro enfoque introduce un objetivo novedoso de destilación de movimiento utilizando vectores residuales entre fotogramas consecutivos como referencia de movimiento. El proceso de difusión preserva las trayectorias de movimiento de baja frecuencia mientras mitiga el ruido de alta frecuencia no relacionado con el movimiento en el espacio de la imagen. Validamos nuestro método frente a los modelos generativos de video más avanzados en diversos movimientos y contextos del mundo real. Nuestros códigos, datos y la demostración del proyecto se pueden encontrar en https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io