MotionShop: Передача движения без обучающего набора в видеодиффузионных моделях с смесью руководства оценками.
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
December 6, 2024
Авторы: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI
Аннотация
В данной работе мы предлагаем первый подход к передаче движения в диффузионном трансформере с использованием Смеси Руководства Оценками (MSG), теоретически обоснованной концепции для передачи движения в моделях диффузии. Наш важный теоретический вклад заключается в переформулировании условной оценки для декомпозиции оценки движения и оценки содержимого в моделях диффузии. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и обеспечивает креативные преобразования сцены, сохраняя целостность переданных образцов движения. Эта новаторская выборка работает непосредственно с предварительно обученными видеомоделями диффузии без дополнительного обучения или настройки. Через обширные эксперименты MSG продемонстрировал успешное решение различных сценариев, включая передачу движения одного объекта, нескольких объектов и межобъектную передачу движения, а также сложную передачу камерного движения. Кроме того, мы представляем MotionBench, первый набор данных по передаче движения, состоящий из 200 исходных видеороликов и 1000 переданных движений, охватывающий передачу одного/нескольких объектов и сложные камерные движения.
English
In this work, we propose the first motion transfer approach in diffusion
transformer through Mixture of Score Guidance (MSG), a theoretically-grounded
framework for motion transfer in diffusion models. Our key theoretical
contribution lies in reformulating conditional score to decompose motion score
and content score in diffusion models. By formulating motion transfer as a
mixture of potential energies, MSG naturally preserves scene composition and
enables creative scene transformations while maintaining the integrity of
transferred motion patterns. This novel sampling operates directly on
pre-trained video diffusion models without additional training or fine-tuning.
Through extensive experiments, MSG demonstrates successful handling of diverse
scenarios including single object, multiple objects, and cross-object motion
transfer as well as complex camera motion transfer. Additionally, we introduce
MotionBench, the first motion transfer dataset consisting of 200 source videos
and 1000 transferred motions, covering single/multi-object transfers, and
complex camera motions.Summary
AI-Generated Summary