ChatPaper.aiChatPaper

Kamerasteuerung ohne Training für die Generierung von Videos

Training-free Camera Control for Video Generation

June 14, 2024
Autoren: Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen
cs.AI

Zusammenfassung

Wir schlagen eine trainingsfreie und robuste Lösung vor, um die Steuerung von Kamerabewegungen für handelsübliche Videodiffusionsmodelle anzubieten. Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein überwachtes Feintuning auf kamera-annotierten Datensätzen oder selbstüberwachtes Training durch Datenvergrößerung. Stattdessen kann sie mit den meisten vorab trainierten Videodiffusionsmodellen verbunden und verwendet werden, um kamerasteuerbare Videos mit einem einzelnen Bild oder Texteingabe zu generieren. Die Inspiration für unsere Arbeit stammt aus dem Layout-Prior, den Zwischenlatenten in Bezug auf die generierten Ergebnisse innehaben. Durch Neuordnung von verrauschten Pixeln in ihnen wird auch der Ausgabeinhalt entsprechend umverteilt. Da Kamerabewegungen auch als eine Art Pixelneuanordnung aufgrund von Perspektivenänderungen angesehen werden können, können Videos entsprechend einer spezifischen Kamerabewegung neu organisiert werden, wenn sich ihre verrauschten Latenten entsprechend ändern. Basierend darauf schlagen wir unsere Methode CamTrol vor, die eine robuste Kamerasteuerung für Videodiffusionsmodelle ermöglicht. Dies wird durch einen zweistufigen Prozess erreicht. Erstens modellieren wir die Neuordnung des Bildlayouts durch explizite Kamerabewegung im 3D-Punktwolkenraum. Zweitens generieren wir Videos mit Kamerabewegungen unter Verwendung des Layout-Priors verrauschter Latenten, die durch eine Reihe von neu angeordneten Bildern gebildet werden. Umfangreiche Experimente haben die Robustheit unserer Methode bei der Steuerung der Kamerabewegung von generierten Videos gezeigt. Darüber hinaus zeigen wir, dass unsere Methode beeindruckende Ergebnisse bei der Erzeugung von 3D-Rotationsvideos mit dynamischem Inhalt liefern kann. Projektseite unter https://lifedecoder.github.io/CamTrol/.
English
We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.

Summary

AI-Generated Summary

PDF122December 6, 2024