MotionClone: Clonación de Movimiento sin Entrenamiento para la Generación Controlable de Videos

Resumen

La generación controlada de texto a vídeo basada en movimiento implica el uso de movimientos para controlar la generación del vídeo. Los métodos anteriores generalmente requieren el entrenamiento de modelos para codificar señales de movimiento o el ajuste fino de modelos de difusión de vídeo. Sin embargo, estos enfoques suelen resultar en una generación de movimiento subóptima cuando se aplican fuera del dominio entrenado. En este trabajo, proponemos MotionClone, un marco sin necesidad de entrenamiento que permite clonar el movimiento de un vídeo de referencia para controlar la generación de texto a vídeo. Empleamos atención temporal en la inversión de vídeo para representar los movimientos en el vídeo de referencia e introducimos una guía de atención temporal primaria para mitigar la influencia de movimientos ruidosos o muy sutiles dentro de los pesos de atención. Además, para ayudar al modelo de generación a sintetizar relaciones espaciales razonables y mejorar su capacidad de seguir instrucciones, proponemos un mecanismo de guía semántica consciente de la ubicación que aprovecha la ubicación aproximada del primer plano del vídeo de referencia y las características originales de guía sin clasificador para guiar la generación del vídeo. Experimentos extensos demuestran que MotionClone muestra competencia tanto en el movimiento global de la cámara como en el movimiento local de objetos, con una notable superioridad en términos de fidelidad de movimiento, alineación textual y consistencia temporal.

English

Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.

MotionClone: Clonación de Movimiento sin Entrenamiento para la Generación Controlable de Videos

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Resumen

Support