ChatPaper.aiChatPaper

MotionShop: Transferência de Movimento sem Uso de Exemplos em Modelos de Difusão de Vídeo com Mistura de Orientação de Pontuação

MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

December 6, 2024
Autores: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI

Resumo

Neste trabalho, propomos a primeira abordagem de transferência de movimento em transformadores de difusão por meio de Mistura de Orientação de Pontuação (MOP), um framework fundamentado teoricamente para transferência de movimento em modelos de difusão. Nossa principal contribuição teórica reside na reformulação da pontuação condicional para decompor a pontuação de movimento e a pontuação de conteúdo em modelos de difusão. Ao formular a transferência de movimento como uma mistura de energias potenciais, a MOP preserva naturalmente a composição da cena e permite transformações de cena criativas, mantendo a integridade dos padrões de movimento transferidos. Esta amostragem inovadora opera diretamente em modelos de difusão de vídeo pré-treinados sem treinamento adicional ou ajuste fino. Através de experimentos extensivos, a MOP demonstra o manuseio bem-sucedido de diversos cenários, incluindo transferência de movimento de objeto único, múltiplos objetos e entre objetos, bem como transferência de movimento de câmera complexa. Além disso, introduzimos o MotionBench, o primeiro conjunto de dados de transferência de movimento consistindo de 200 vídeos de origem e 1000 movimentos transferidos, abrangendo transferências de objeto único/múltiplo e movimentos de câmera complexos.
English
In this work, we propose the first motion transfer approach in diffusion transformer through Mixture of Score Guidance (MSG), a theoretically-grounded framework for motion transfer in diffusion models. Our key theoretical contribution lies in reformulating conditional score to decompose motion score and content score in diffusion models. By formulating motion transfer as a mixture of potential energies, MSG naturally preserves scene composition and enables creative scene transformations while maintaining the integrity of transferred motion patterns. This novel sampling operates directly on pre-trained video diffusion models without additional training or fine-tuning. Through extensive experiments, MSG demonstrates successful handling of diverse scenarios including single object, multiple objects, and cross-object motion transfer as well as complex camera motion transfer. Additionally, we introduce MotionBench, the first motion transfer dataset consisting of 200 source videos and 1000 transferred motions, covering single/multi-object transfers, and complex camera motions.

Summary

AI-Generated Summary

PDF92December 10, 2024