MotionShop: Transferência de Movimento sem Uso de Exemplos em Modelos de Difusão de Vídeo com Mistura de Orientação de Pontuação
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
December 6, 2024
Autores: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI
Resumo
Neste trabalho, propomos a primeira abordagem de transferência de movimento em transformadores de difusão por meio de Mistura de Orientação de Pontuação (MOP), um framework fundamentado teoricamente para transferência de movimento em modelos de difusão. Nossa principal contribuição teórica reside na reformulação da pontuação condicional para decompor a pontuação de movimento e a pontuação de conteúdo em modelos de difusão. Ao formular a transferência de movimento como uma mistura de energias potenciais, a MOP preserva naturalmente a composição da cena e permite transformações de cena criativas, mantendo a integridade dos padrões de movimento transferidos. Esta amostragem inovadora opera diretamente em modelos de difusão de vídeo pré-treinados sem treinamento adicional ou ajuste fino. Através de experimentos extensivos, a MOP demonstra o manuseio bem-sucedido de diversos cenários, incluindo transferência de movimento de objeto único, múltiplos objetos e entre objetos, bem como transferência de movimento de câmera complexa. Além disso, introduzimos o MotionBench, o primeiro conjunto de dados de transferência de movimento consistindo de 200 vídeos de origem e 1000 movimentos transferidos, abrangendo transferências de objeto único/múltiplo e movimentos de câmera complexos.
English
In this work, we propose the first motion transfer approach in diffusion
transformer through Mixture of Score Guidance (MSG), a theoretically-grounded
framework for motion transfer in diffusion models. Our key theoretical
contribution lies in reformulating conditional score to decompose motion score
and content score in diffusion models. By formulating motion transfer as a
mixture of potential energies, MSG naturally preserves scene composition and
enables creative scene transformations while maintaining the integrity of
transferred motion patterns. This novel sampling operates directly on
pre-trained video diffusion models without additional training or fine-tuning.
Through extensive experiments, MSG demonstrates successful handling of diverse
scenarios including single object, multiple objects, and cross-object motion
transfer as well as complex camera motion transfer. Additionally, we introduce
MotionBench, the first motion transfer dataset consisting of 200 source videos
and 1000 transferred motions, covering single/multi-object transfers, and
complex camera motions.Summary
AI-Generated Summary