ChatPaper.aiChatPaper

MotionShop: Zero-Shot-Bewegungsübertragung in Videodiffusionsmodellen mit einer Mischung aus Score-Anleitung.

MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

December 6, 2024
Autoren: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI

Zusammenfassung

In dieser Arbeit schlagen wir den ersten Ansatz für Bewegungsübertragung im Diffusionstransformer durch Mixture of Score Guidance (MSG) vor, ein theoretisch fundiertes Rahmenwerk für Bewegungsübertragung in Diffusionsmodellen. Unser wesentlicher theoretischer Beitrag liegt in der Neufassung des bedingten Scores zur Zerlegung des Bewegungsscores und des Inhaltscores in Diffusionsmodellen. Indem wir die Bewegungsübertragung als Mischung von potenziellen Energien formulieren, bewahrt MSG auf natürliche Weise die Szenenzusammensetzung und ermöglicht kreative Szenentransformationen, während die Integrität der übertragenen Bewegungsmuster erhalten bleibt. Dieses neuartige Sampling erfolgt direkt auf vorab trainierten Videodiffusionsmodellen ohne zusätzliches Training oder Feinabstimmung. Durch umfangreiche Experimente zeigt MSG erfolgreiches Handling verschiedener Szenarien, darunter die Übertragung von einzelnen Objekten, mehreren Objekten und die Übertragung von komplexen Kamerabewegungen zwischen Objekten. Darüber hinaus stellen wir MotionBench vor, den ersten Datensatz für Bewegungsübertragung, bestehend aus 200 Quellvideos und 1000 übertragenen Bewegungen, die einzelne/mehrere Objektübertragungen und komplexe Kamerabewegungen abdecken.
English
In this work, we propose the first motion transfer approach in diffusion transformer through Mixture of Score Guidance (MSG), a theoretically-grounded framework for motion transfer in diffusion models. Our key theoretical contribution lies in reformulating conditional score to decompose motion score and content score in diffusion models. By formulating motion transfer as a mixture of potential energies, MSG naturally preserves scene composition and enables creative scene transformations while maintaining the integrity of transferred motion patterns. This novel sampling operates directly on pre-trained video diffusion models without additional training or fine-tuning. Through extensive experiments, MSG demonstrates successful handling of diverse scenarios including single object, multiple objects, and cross-object motion transfer as well as complex camera motion transfer. Additionally, we introduce MotionBench, the first motion transfer dataset consisting of 200 source videos and 1000 transferred motions, covering single/multi-object transfers, and complex camera motions.

Summary

AI-Generated Summary

PDF92December 10, 2024