ChatPaper.aiChatPaper

KameraSteuerung: Aktivierung der Kamerasteuerung für die Generierung von Text-zu-Video.

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

April 2, 2024
Autoren: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI

Zusammenfassung

Die Kontrollierbarkeit spielt eine entscheidende Rolle bei der Videogenerierung, da sie es den Benutzern ermöglicht, den gewünschten Inhalt zu erstellen. Allerdings haben bestehende Modelle weitgehend die präzise Steuerung der Kameraposition übersehen, die als filmische Sprache dient, um tiefere narrative Feinheiten auszudrücken. Um dieses Problem zu mildern, führen wir CameraCtrl ein, das eine genaue Steuerung der Kameraposition für Text-zu-Video (T2V)-Modelle ermöglicht. Nachdem die Kamerabahn präzise parametrisiert wurde, wird ein Plug-and-Play-Kameramodul auf einem T2V-Modell trainiert, ohne andere Teile zu beeinflussen. Darüber hinaus wird eine umfassende Studie über die Auswirkungen verschiedener Datensätze durchgeführt, die darauf hindeutet, dass Videos mit einer vielfältigen Kameraverteilung und ähnlichem Erscheinungsbild die Kontrollierbarkeit und Verallgemeinerung tatsächlich verbessern. Experimentelle Ergebnisse zeigen die Wirksamkeit von CameraCtrl bei der Erzielung präziser und domänenadaptiver Kamerasteuerung und markieren einen Schritt vorwärts bei der Verfolgung von dynamischer und maßgeschneiderter Videogeschichtenerzählung aus textuellen und Kamerapositionseingaben. Unsere Projektwebsite ist unter folgendem Link erreichbar: https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.

Summary

AI-Generated Summary

PDF251November 26, 2024