ChatPaper.aiChatPaper

MotionShop: Transferencia de Movimiento sin Entrenamiento en Modelos de Difusión de Video con Mezcla de Guía de Puntuación

MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

December 6, 2024
Autores: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI

Resumen

En este trabajo, proponemos el primer enfoque de transferencia de movimiento en un transformador de difusión a través de la Guía de Puntuación Mixta (MSG), un marco fundamentado teóricamente para la transferencia de movimiento en modelos de difusión. Nuestra principal contribución teórica radica en reformular la puntuación condicional para descomponer la puntuación de movimiento y la puntuación de contenido en modelos de difusión. Al formular la transferencia de movimiento como una mezcla de energías potenciales, MSG conserva naturalmente la composición de la escena y permite transformaciones creativas de escenas manteniendo la integridad de los patrones de movimiento transferidos. Este muestreo novedoso opera directamente en modelos de difusión de video pre-entrenados sin necesidad de entrenamiento adicional o ajuste fino. A través de experimentos extensos, MSG demuestra un manejo exitoso de diversos escenarios que incluyen transferencia de movimiento de un solo objeto, múltiples objetos y transferencia de movimiento entre objetos, así como transferencia de movimientos de cámara complejos. Además, presentamos MotionBench, el primer conjunto de datos de transferencia de movimiento que consta de 200 videos fuente y 1000 movimientos transferidos, abarcando transferencias de un solo/múltiples objetos y movimientos de cámara complejos.
English
In this work, we propose the first motion transfer approach in diffusion transformer through Mixture of Score Guidance (MSG), a theoretically-grounded framework for motion transfer in diffusion models. Our key theoretical contribution lies in reformulating conditional score to decompose motion score and content score in diffusion models. By formulating motion transfer as a mixture of potential energies, MSG naturally preserves scene composition and enables creative scene transformations while maintaining the integrity of transferred motion patterns. This novel sampling operates directly on pre-trained video diffusion models without additional training or fine-tuning. Through extensive experiments, MSG demonstrates successful handling of diverse scenarios including single object, multiple objects, and cross-object motion transfer as well as complex camera motion transfer. Additionally, we introduce MotionBench, the first motion transfer dataset consisting of 200 source videos and 1000 transferred motions, covering single/multi-object transfers, and complex camera motions.

Summary

AI-Generated Summary

PDF92December 10, 2024