ChatPaper.aiChatPaper

MotionMaster: Training-freie Kamerabewegungsübertragung zur Videogenerierung

MotionMaster: Training-free Camera Motion Transfer For Video Generation

April 24, 2024
Autoren: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI

Zusammenfassung

Das Aufkommen von Diffusionsmodellen hat den Fortschritt in der Bild- und Videogenerierung erheblich vorangetrieben. In letzter Zeit wurden einige Anstrengungen unternommen, um die kontrollierte Videogenerierung voranzutreiben, darunter die Text-zu-Video-Generierung und die Steuerung der Videobewegung, wobei die Steuerung der Kamerabewegung ein wichtiges Thema ist. Allerdings basieren bestehende Methoden zur Kamerasteuerung auf dem Training eines zeitlichen Kameramoduls und erfordern erhebliche Rechenressourcen aufgrund der großen Anzahl von Parametern in Videogenerierungsmodellen. Darüber hinaus definieren bestehende Methoden die Kamerabewegungstypen während des Trainings vor, was ihre Flexibilität bei der Kamerasteuerung einschränkt. Daher schlagen wir zur Reduzierung der Trainingskosten und zur Erreichung einer flexiblen Kamerasteuerung COMD vor, ein neuartiges trainingsfreies Modell zur Übertragung von Videobewegungen, das Kamerabewegungen und Objektbewegungen in Quellvideos trennt und die extrahierten Kamerabewegungen auf neue Videos überträgt. Zunächst schlagen wir eine One-Shot-Kamerabewegungs-Entflechtungsmethode vor, um die Kamerabewegung aus einem einzelnen Quellvideo zu extrahieren, die beweglichen Objekte vom Hintergrund zu trennen und die Kamerabewegung in der Region der bewegten Objekte basierend auf der Bewegung im Hintergrund durch Lösung einer Poisson-Gleichung zu schätzen. Darüber hinaus schlagen wir eine Few-Shot-Kamerabewegungs-Entflechtungsmethode vor, um die gemeinsame Kamerabewegung aus mehreren Videos mit ähnlichen Kamerabewegungen zu extrahieren, die eine fensterbasierte Clustering-Technik verwendet, um die gemeinsamen Merkmale in den zeitlichen Aufmerksamkeitskarten mehrerer Videos zu extrahieren. Schließlich schlagen wir eine Bewegungskombinationsmethode vor, um verschiedene Arten von Kamerabewegungen zusammenzuführen, was unserem Modell eine kontrollierbarere und flexiblere Kamerasteuerung ermöglicht. Umfangreiche Experimente zeigen, dass unser trainingsfreier Ansatz die Kamera-Objekt-Bewegung effektiv entkoppeln kann und die entkoppelte Kamerabewegung auf eine Vielzahl von kontrollierten Videogenerierungsaufgaben anwenden kann, um eine flexible und vielfältige Kamerasteuerung zu erreichen.
English
The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.

Summary

AI-Generated Summary

PDF131December 15, 2024