ChatPaper.aiChatPaper

MotionMaster: Trainingsvrije Camera Bewegingsoverdracht voor Videogeneratie

MotionMaster: Training-free Camera Motion Transfer For Video Generation

April 24, 2024
Auteurs: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI

Samenvatting

De opkomst van diffusiemodellen heeft de vooruitgang in beeld- en videogeneratie aanzienlijk bevorderd. Recentelijk zijn er enkele inspanningen geleverd op het gebied van beheersbare videogeneratie, waaronder tekst-naar-videogeneratie en videobewegingscontrole, waarbij camerabewegingscontrole een belangrijk onderwerp is. Bestaande methoden voor camerabewegingscontrole zijn echter afhankelijk van het trainen van een tijdelijk cameramodule en vereisen aanzienlijke rekenbronnen vanwege het grote aantal parameters in videogeneratiemodellen. Bovendien definiëren bestaande methoden camerabewegingstypen vooraf tijdens de training, wat hun flexibiliteit in camerabesturing beperkt. Om de trainingskosten te verlagen en flexibele camerabesturing te bereiken, stellen we COMD voor, een nieuw trainingsvrij videobewegingsoverdrachtsmodel, dat camerabewegingen en objectbewegingen in bronvideo's ontkoppelt en de geëxtraheerde camerabewegingen naar nieuwe video's overbrengt. We introduceren eerst een one-shot camerabewegingsontkoppelingsmethode om camerabeweging uit een enkele bronvideo te extraheren, waarbij de bewegende objecten van de achtergrond worden gescheiden en de camerabeweging in het gebied van de bewegende objecten wordt geschat op basis van de beweging in de achtergrond door een Poisson-vergelijking op te lossen. Verder stellen we een few-shot camerabewegingsontkoppelingsmethode voor om de gemeenschappelijke camerabeweging uit meerdere video's met vergelijkbare camerabewegingen te extraheren, waarbij een venstergebaseerde clusteringtechniek wordt gebruikt om de gemeenschappelijke kenmerken in temporele aandachtkaarten van meerdere video's te extraheren. Ten slotte introduceren we een bewegingscombinatiemethode om verschillende soorten camerabewegingen te combineren, waardoor ons model een meer beheersbare en flexibele camerabesturing krijgt. Uitgebreide experimenten tonen aan dat onze trainingsvrije aanpak effectief camerabewegingen en objectbewegingen kan ontkoppelen en de ontkoppelde camerabeweging kan toepassen op een breed scala aan beheersbare videogeneratietaken, waardoor flexibele en diverse camerabewegingscontrole wordt bereikt.
English
The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
PDF131December 15, 2024