MotionClone: Clonagem de Movimento sem Treinamento para Geração de Vídeo Controlável
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
Autores: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
Resumo
A geração controlada de vídeo a partir de texto baseada em movimento envolve o uso de movimentos para controlar a geração do vídeo. Métodos anteriores geralmente exigem o treinamento de modelos para codificar pistas de movimento ou o ajuste fino de modelos de difusão de vídeo. No entanto, essas abordagens frequentemente resultam em geração de movimento subótima quando aplicadas fora do domínio treinado. Neste trabalho, propomos o MotionClone, uma estrutura livre de treinamento que permite a clonagem de movimento a partir de um vídeo de referência para controlar a geração de vídeo a partir de texto. Empregamos atenção temporal na inversão de vídeo para representar os movimentos no vídeo de referência e introduzimos uma orientação primária de atenção temporal para mitigar a influência de movimentos ruidosos ou muito sutis dentro dos pesos de atenção. Além disso, para auxiliar o modelo de geração na síntese de relações espaciais razoáveis e aprimorar sua capacidade de seguir instruções, propomos um mecanismo de orientação semântica consciente da localização que aproveita a localização aproximada do primeiro plano do vídeo de referência e as características originais de orientação sem classificador para guiar a geração do vídeo. Experimentos extensivos demonstram que o MotionClone exibe proficiência tanto em movimento global da câmera quanto em movimento local de objetos, com superioridade notável em termos de fidelidade de movimento, alinhamento textual e consistência temporal.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.