MotionShop: Zero-Shot-Bewegungsübertragung in Videodiffusionsmodellen mit einer Mischung aus Score-Anleitung.
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
December 6, 2024
Autoren: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI
Zusammenfassung
In dieser Arbeit schlagen wir den ersten Ansatz für Bewegungsübertragung im Diffusionstransformer durch Mixture of Score Guidance (MSG) vor, ein theoretisch fundiertes Rahmenwerk für Bewegungsübertragung in Diffusionsmodellen. Unser wesentlicher theoretischer Beitrag liegt in der Neufassung des bedingten Scores zur Zerlegung des Bewegungsscores und des Inhaltscores in Diffusionsmodellen. Indem wir die Bewegungsübertragung als Mischung von potenziellen Energien formulieren, bewahrt MSG auf natürliche Weise die Szenenzusammensetzung und ermöglicht kreative Szenentransformationen, während die Integrität der übertragenen Bewegungsmuster erhalten bleibt. Dieses neuartige Sampling erfolgt direkt auf vorab trainierten Videodiffusionsmodellen ohne zusätzliches Training oder Feinabstimmung. Durch umfangreiche Experimente zeigt MSG erfolgreiches Handling verschiedener Szenarien, darunter die Übertragung von einzelnen Objekten, mehreren Objekten und die Übertragung von komplexen Kamerabewegungen zwischen Objekten. Darüber hinaus stellen wir MotionBench vor, den ersten Datensatz für Bewegungsübertragung, bestehend aus 200 Quellvideos und 1000 übertragenen Bewegungen, die einzelne/mehrere Objektübertragungen und komplexe Kamerabewegungen abdecken.
English
In this work, we propose the first motion transfer approach in diffusion
transformer through Mixture of Score Guidance (MSG), a theoretically-grounded
framework for motion transfer in diffusion models. Our key theoretical
contribution lies in reformulating conditional score to decompose motion score
and content score in diffusion models. By formulating motion transfer as a
mixture of potential energies, MSG naturally preserves scene composition and
enables creative scene transformations while maintaining the integrity of
transferred motion patterns. This novel sampling operates directly on
pre-trained video diffusion models without additional training or fine-tuning.
Through extensive experiments, MSG demonstrates successful handling of diverse
scenarios including single object, multiple objects, and cross-object motion
transfer as well as complex camera motion transfer. Additionally, we introduce
MotionBench, the first motion transfer dataset consisting of 200 source videos
and 1000 transferred motions, covering single/multi-object transfers, and
complex camera motions.Summary
AI-Generated Summary