MotionShop : Transfert de Mouvement sans Apprentissage dans les Modèles de Diffusion Vidéo avec un Mélange de Guidage de Score
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
December 6, 2024
Auteurs: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI
Résumé
Dans ce travail, nous proposons la première approche de transfert de mouvement dans un transformateur de diffusion à travers le Mélange de Guidage de Score (MSG), un cadre théoriquement fondé pour le transfert de mouvement dans les modèles de diffusion. Notre principale contribution théorique réside dans la reformulation du score conditionnel pour décomposer le score de mouvement et le score de contenu dans les modèles de diffusion. En formulant le transfert de mouvement comme un mélange d'énergies potentielles, le MSG préserve naturellement la composition de la scène et permet des transformations de scène créatives tout en maintenant l'intégrité des motifs de mouvement transférés. Cet échantillonnage novateur fonctionne directement sur des modèles de diffusion vidéo pré-entraînés sans formation ou ajustement supplémentaire. À travers des expériences approfondies, le MSG démontre une gestion réussie de divers scénarios, y compris le transfert de mouvement d'objet unique, d'objets multiples, de mouvements entre objets ainsi que le transfert de mouvement de caméra complexe. De plus, nous introduisons MotionBench, le premier ensemble de données de transfert de mouvement composé de 200 vidéos sources et de 1000 mouvements transférés, couvrant les transferts d'objet unique/multiple et les mouvements de caméra complexes.
English
In this work, we propose the first motion transfer approach in diffusion
transformer through Mixture of Score Guidance (MSG), a theoretically-grounded
framework for motion transfer in diffusion models. Our key theoretical
contribution lies in reformulating conditional score to decompose motion score
and content score in diffusion models. By formulating motion transfer as a
mixture of potential energies, MSG naturally preserves scene composition and
enables creative scene transformations while maintaining the integrity of
transferred motion patterns. This novel sampling operates directly on
pre-trained video diffusion models without additional training or fine-tuning.
Through extensive experiments, MSG demonstrates successful handling of diverse
scenarios including single object, multiple objects, and cross-object motion
transfer as well as complex camera motion transfer. Additionally, we introduce
MotionBench, the first motion transfer dataset consisting of 200 source videos
and 1000 transferred motions, covering single/multi-object transfers, and
complex camera motions.Summary
AI-Generated Summary