VMC: Personalización de Movimiento en Video mediante Adaptación de Atención Temporal para Modelos de Difusión de Texto a Video

Resumen

Los modelos de difusión de texto a video han avanzado significativamente en la generación de videos. Sin embargo, personalizar estos modelos para generar videos con movimientos específicos representa un desafío considerable. En particular, enfrentan obstáculos en (a) reproducir con precisión el movimiento de un video objetivo y (b) crear variaciones visuales diversas. Por ejemplo, las extensiones directas de los métodos de personalización de imágenes estáticas al video a menudo resultan en enredos complejos entre los datos de apariencia y movimiento. Para abordar esto, presentamos el marco de Personalización de Movimiento de Video (VMC, por sus siglas en inglés), un enfoque novedoso de ajuste en una sola toma diseñado para adaptar las capas de atención temporal dentro de los modelos de difusión de video. Nuestro enfoque introduce un objetivo novedoso de destilación de movimiento utilizando vectores residuales entre fotogramas consecutivos como referencia de movimiento. El proceso de difusión preserva las trayectorias de movimiento de baja frecuencia mientras mitiga el ruido de alta frecuencia no relacionado con el movimiento en el espacio de la imagen. Validamos nuestro método frente a los modelos generativos de video más avanzados en diversos movimientos y contextos del mundo real. Nuestros códigos, datos y la demostración del proyecto se pueden encontrar en https://video-motion-customization.github.io.

English

Text-to-video diffusion models have advanced video generation significantly. However, customizing these models to generate videos with tailored motions presents a substantial challenge. In specific, they encounter hurdles in (a) accurately reproducing motion from a target video, and (b) creating diverse visual variations. For example, straightforward extensions of static image customization methods to video often lead to intricate entanglements of appearance and motion data. To tackle this, here we present the Video Motion Customization (VMC) framework, a novel one-shot tuning approach crafted to adapt temporal attention layers within video diffusion models. Our approach introduces a novel motion distillation objective using residual vectors between consecutive frames as a motion reference. The diffusion process then preserves low-frequency motion trajectories while mitigating high-frequency motion-unrelated noise in image space. We validate our method against state-of-the-art video generative models across diverse real-world motions and contexts. Our codes, data and the project demo can be found at https://video-motion-customization.github.io

VMC: Personalización de Movimiento en Video mediante Adaptación de Atención Temporal para Modelos de Difusión de Texto a Video

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

Resumen

Support