VMC : Personnalisation du mouvement vidéo via l'adaptation d'attention temporelle pour les modèles de diffusion texte-à-vidéo
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models
December 1, 2023
Auteurs: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI
Résumé
Les modèles de diffusion texte-vidéo ont considérablement fait progresser la génération vidéo. Cependant, personnaliser ces modèles pour produire des vidéos avec des mouvements spécifiques représente un défi majeur. Plus précisément, ils rencontrent des difficultés à (a) reproduire fidèlement les mouvements d'une vidéo cible, et (b) créer des variations visuelles diversifiées. Par exemple, l'extension directe des méthodes de personnalisation d'images statiques à la vidéo entraîne souvent un enchevêtrement complexe des données d'apparence et de mouvement. Pour résoudre ce problème, nous présentons ici le cadre Video Motion Customization (VMC), une nouvelle approche de réglage en une seule étape conçue pour adapter les couches d'attention temporelle dans les modèles de diffusion vidéo. Notre méthode introduit un objectif de distillation de mouvement innovant, utilisant des vecteurs résiduels entre des images consécutives comme référence de mouvement. Le processus de diffusion préserve ainsi les trajectoires de mouvement à basse fréquence tout en atténuant le bruit à haute fréquence non lié au mouvement dans l'espace image. Nous validons notre méthode par rapport aux modèles génératifs vidéo de pointe dans divers contextes et mouvements du monde réel. Nos codes, données et démonstration du projet sont disponibles à l'adresse suivante : https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io