MotionClone: Clonación de Movimiento sin Entrenamiento para la Generación Controlable de Videos
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
Autores: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
Resumen
La generación controlada de texto a vídeo basada en movimiento implica el uso de movimientos para controlar la generación del vídeo. Los métodos anteriores generalmente requieren el entrenamiento de modelos para codificar señales de movimiento o el ajuste fino de modelos de difusión de vídeo. Sin embargo, estos enfoques suelen resultar en una generación de movimiento subóptima cuando se aplican fuera del dominio entrenado. En este trabajo, proponemos MotionClone, un marco sin necesidad de entrenamiento que permite clonar el movimiento de un vídeo de referencia para controlar la generación de texto a vídeo. Empleamos atención temporal en la inversión de vídeo para representar los movimientos en el vídeo de referencia e introducimos una guía de atención temporal primaria para mitigar la influencia de movimientos ruidosos o muy sutiles dentro de los pesos de atención. Además, para ayudar al modelo de generación a sintetizar relaciones espaciales razonables y mejorar su capacidad de seguir instrucciones, proponemos un mecanismo de guía semántica consciente de la ubicación que aprovecha la ubicación aproximada del primer plano del vídeo de referencia y las características originales de guía sin clasificador para guiar la generación del vídeo. Experimentos extensos demuestran que MotionClone muestra competencia tanto en el movimiento global de la cámara como en el movimiento local de objetos, con una notable superioridad en términos de fidelidad de movimiento, alineación textual y consistencia temporal.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.Summary
AI-Generated Summary