MotionClone : Clonage de mouvement sans apprentissage pour la génération de vidéo contrôlable

papers.abstract

La génération contrôlée de vidéos à partir de texte basée sur le mouvement implique l'utilisation de mouvements pour contrôler la génération vidéo. Les méthodes précédentes nécessitent généralement l'entraînement de modèles pour encoder les indices de mouvement ou le réglage fin de modèles de diffusion vidéo. Cependant, ces approches aboutissent souvent à une génération de mouvement sous-optimale lorsqu'elles sont appliquées en dehors du domaine d'entraînement. Dans ce travail, nous proposons MotionClone, un cadre sans entraînement qui permet le clonage de mouvement à partir d'une vidéo de référence pour contrôler la génération de vidéos à partir de texte. Nous utilisons l'attention temporelle dans l'inversion vidéo pour représenter les mouvements de la vidéo de référence et introduisons un guidage primaire par attention temporelle pour atténuer l'influence des mouvements bruyants ou très subtils dans les poids d'attention. De plus, pour aider le modèle de génération à synthétiser des relations spatiales raisonnables et améliorer sa capacité à suivre les instructions, nous proposons un mécanisme de guidage sémantique sensible à la localisation qui exploite la localisation approximative du premier plan dans la vidéo de référence et les caractéristiques originales de guidage sans classifieur pour orienter la génération vidéo. Des expériences approfondies démontrent que MotionClone excelle à la fois dans les mouvements globaux de la caméra et les mouvements locaux des objets, avec une supériorité notable en termes de fidélité du mouvement, d'alignement textuel et de cohérence temporelle.

English

Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.

MotionClone : Clonage de mouvement sans apprentissage pour la génération de vidéo contrôlable

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

papers.abstract

Support