ChatPaper.aiChatPaper

MotionMaster: Передача движения камеры без обучения для генерации видео

MotionMaster: Training-free Camera Motion Transfer For Video Generation

April 24, 2024
Авторы: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI

Аннотация

Появление моделей диффузии значительно ускорило прогресс в области генерации изображений и видео. Недавно были предприняты усилия в области управляемой генерации видео, включая генерацию видео по тексту и управление движением видео, среди которых управление движением камеры является важной темой. Однако существующие методы управления движением камеры основаны на обучении временного модуля камеры и требуют значительных вычислительных ресурсов из-за большого количества параметров в моделях генерации видео. Более того, существующие методы предопределяют типы движения камеры во время обучения, что ограничивает их гибкость в управлении камерой. Для снижения затрат на обучение и достижения гибкого управления камерой мы предлагаем COMD, новую модель передачи движения видео без обучения, которая разделяет движения камеры и объектов в исходных видео и передает извлеченные движения камеры в новые видео. Сначала мы предлагаем метод декомпозиции движения камеры с одним снимком для извлечения движения камеры из одного исходного видео, который отделяет движущиеся объекты от фона и оценивает движение камеры в области движущихся объектов на основе движения в фоне путем решения уравнения Пуассона. Кроме того, мы предлагаем метод декомпозиции движения камеры с несколькими снимками для извлечения общего движения камеры из нескольких видео с похожими движениями камеры, который использует технику кластеризации на основе окон для извлечения общих признаков во временных картах внимания нескольких видео. Наконец, мы предлагаем метод комбинации движения для объединения различных типов движения камеры, что позволяет нашей модели более управляемое и гибкое управление камерой. Обширные эксперименты показывают, что наш подход без обучения эффективно разделяет движение камеры и объекта и применяет разделенное движение камеры к широкому спектру задач генерации видео с гибким и разнообразным управлением движением камеры.
English
The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
PDF131December 15, 2024