ChatPaper.aiChatPaper

MotionMaster: Transferência de Movimento de Câmera sem Treinamento para Geração de Vídeo

MotionMaster: Training-free Camera Motion Transfer For Video Generation

April 24, 2024
Autores: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI

Resumo

O surgimento dos modelos de difusão impulsionou significativamente o progresso na geração de imagens e vídeos. Recentemente, alguns esforços foram feitos na geração controlada de vídeos, incluindo a geração de texto para vídeo e o controle de movimento em vídeos, entre os quais o controle de movimento da câmera é um tópico importante. No entanto, os métodos existentes de controle de movimento da câmera dependem do treinamento de um módulo temporal da câmera e exigem recursos computacionais substanciais devido à grande quantidade de parâmetros nos modelos de geração de vídeo. Além disso, os métodos existentes predefinem tipos de movimento da câmera durante o treinamento, o que limita sua flexibilidade no controle da câmera. Portanto, para reduzir os custos de treinamento e alcançar um controle flexível da câmera, propomos o COMD, um novo modelo de transferência de movimento em vídeo sem necessidade de treinamento, que separa os movimentos da câmera e os movimentos dos objetos em vídeos de origem e transfere os movimentos da câmera extraídos para novos vídeos. Primeiro, propomos um método de separação de movimento da câmera em um único vídeo para extrair o movimento da câmera de um único vídeo de origem, que separa os objetos em movimento do fundo e estima o movimento da câmera na região dos objetos em movimento com base no movimento do fundo, resolvendo uma equação de Poisson. Além disso, propomos um método de separação de movimento da câmera com poucos exemplos para extrair o movimento comum da câmera de múltiplos vídeos com movimentos de câmera semelhantes, que emprega uma técnica de agrupamento baseada em janelas para extrair as características comuns nos mapas de atenção temporal de múltiplos vídeos. Por fim, propomos um método de combinação de movimentos para combinar diferentes tipos de movimentos da câmera, permitindo que nosso modelo tenha um controle de câmera mais controlável e flexível. Experimentos extensivos demonstram que nossa abordagem sem necessidade de treinamento pode efetivamente desacoplar o movimento câmera-objeto e aplicar o movimento da câmera desacoplado a uma ampla gama de tarefas de geração controlada de vídeos, alcançando um controle de movimento da câmera flexível e diversificado.
English
The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
PDF131December 15, 2024