VMC: Video Motion Customization durch temporale Aufmerksamkeitsanpassung für Text-zu-Video-Diffusionsmodelle
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models
December 1, 2023
Autoren: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI
Zusammenfassung
Text-to-Video-Diffusionsmodelle haben die Videogenerierung erheblich vorangetrieben.
Allerdings stellt die Anpassung dieser Modelle zur Erzeugung von Videos mit maßgeschneiderten Bewegungen eine erhebliche Herausforderung dar. Insbesondere stoßen sie auf Hindernisse bei (a) der präzisen Reproduktion von Bewegungen aus einem Zielvideo und (b) der Erzeugung vielfältiger visueller Variationen. Beispielsweise führen einfache Erweiterungen von Methoden zur Anpassung statischer Bilder auf Videos oft zu komplexen Verflechtungen von Erscheinungsbild- und Bewegungsdaten. Um dies zu bewältigen, stellen wir hier das Video Motion Customization (VMC)-Framework vor, einen neuartigen One-Shot-Tuning-Ansatz, der entwickelt wurde, um temporale Aufmerksamkeitsschichten innerhalb von Video-Diffusionsmodellen anzupassen. Unser Ansatz führt ein neuartiges Bewegungsdestillationsziel ein, das Restvektoren zwischen aufeinanderfolgenden Frames als Bewegungsreferenz verwendet. Der Diffusionsprozess bewahrt dann niederfrequente Bewegungspfade, während hochfrequentes bewegungsunabhängiges Rauschen im Bildraum reduziert wird. Wir validieren unsere Methode im Vergleich zu modernsten Video-Generierungsmodellen über verschiedene reale Bewegungen und Kontexte hinweg. Unsere Codes, Daten und die Projekt-Demo sind unter https://video-motion-customization.github.io zu finden.
English
Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io