MotionClone : Clonage de mouvement sans apprentissage pour la génération de vidéo contrôlable
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
Auteurs: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
Résumé
La génération contrôlée de vidéos à partir de texte basée sur le mouvement implique l'utilisation de mouvements pour contrôler la génération vidéo. Les méthodes précédentes nécessitent généralement l'entraînement de modèles pour encoder les indices de mouvement ou le réglage fin de modèles de diffusion vidéo. Cependant, ces approches aboutissent souvent à une génération de mouvement sous-optimale lorsqu'elles sont appliquées en dehors du domaine d'entraînement. Dans ce travail, nous proposons MotionClone, un cadre sans entraînement qui permet le clonage de mouvement à partir d'une vidéo de référence pour contrôler la génération de vidéos à partir de texte. Nous utilisons l'attention temporelle dans l'inversion vidéo pour représenter les mouvements de la vidéo de référence et introduisons un guidage primaire par attention temporelle pour atténuer l'influence des mouvements bruyants ou très subtils dans les poids d'attention. De plus, pour aider le modèle de génération à synthétiser des relations spatiales raisonnables et améliorer sa capacité à suivre les instructions, nous proposons un mécanisme de guidage sémantique sensible à la localisation qui exploite la localisation approximative du premier plan dans la vidéo de référence et les caractéristiques originales de guidage sans classifieur pour orienter la génération vidéo. Des expériences approfondies démontrent que MotionClone excelle à la fois dans les mouvements globaux de la caméra et les mouvements locaux des objets, avec une supériorité notable en termes de fidélité du mouvement, d'alignement textuel et de cohérence temporelle.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.Summary
AI-Generated Summary