VMC: Настройка видеодвижений с использованием временного адаптивного внимания для моделей диффузии текст-в-видео
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models
December 1, 2023
Авторы: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
cs.AI
Аннотация
Модели диффузии для генерации видео из текста значительно продвинули создание видеоконтента. Однако настройка этих моделей для генерации видео с заданными движениями представляет собой серьезную проблему. В частности, они сталкиваются с трудностями в (а) точном воспроизведении движений из целевого видео и (б) создании разнообразных визуальных вариаций. Например, прямое применение методов настройки статических изображений к видео часто приводит к сложному переплетению данных о внешнем виде и движении. Для решения этой проблемы мы представляем фреймворк Video Motion Customization (VMC) — новый подход одноразовой настройки, разработанный для адаптации временных слоев внимания в моделях диффузии видео. Наш подход вводит новую цель дистилляции движения, используя векторы разницы между последовательными кадрами в качестве эталона движения. Процесс диффузии сохраняет низкочастотные траектории движения, одновременно уменьшая высокочастотный шум, не связанный с движением, в пространстве изображений. Мы проверяем наш метод на передовых моделях генерации видео в различных реальных движениях и контекстах. Наш код, данные и демонстрация проекта доступны по адресу https://video-motion-customization.github.io.
English
Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io