MotionClone: Clonazione del movimento senza addestramento per la generazione controllata di video
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
Autori: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
Abstract
La generazione controllata di video da testo basata sul movimento implica l'uso di movimenti per controllare la generazione del video. I metodi precedenti richiedono tipicamente l'addestramento di modelli per codificare i segnali di movimento o il fine-tuning di modelli di diffusione video. Tuttavia, questi approcci spesso portano a una generazione di movimento subottimale quando applicati al di fuori del dominio di addestramento. In questo lavoro, proponiamo MotionClone, un framework senza addestramento che consente la clonazione del movimento da un video di riferimento per controllare la generazione di video da testo. Utilizziamo l'attenzione temporale nell'inversione video per rappresentare i movimenti nel video di riferimento e introduciamo una guida primaria dell'attenzione temporale per mitigare l'influenza di movimenti rumorosi o molto sottili all'interno dei pesi di attenzione. Inoltre, per aiutare il modello di generazione a sintetizzare relazioni spaziali ragionevoli e migliorare la sua capacità di seguire i prompt, proponiamo un meccanismo di guida semantica consapevole della posizione che sfrutta la posizione approssimativa del primo piano dal video di riferimento e le caratteristiche originali di guida senza classificatore per guidare la generazione del video. Esperimenti estensivi dimostrano che MotionClone mostra competenza sia nel movimento globale della telecamera che nel movimento locale degli oggetti, con una notevole superiorità in termini di fedeltà del movimento, allineamento testuale e coerenza temporale.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.