ChatPaper.aiChatPaper

CameraCtrl: Camera-besturing mogelijk maken voor tekst-naar-video-generatie

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

April 2, 2024
Auteurs: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI

Samenvatting

Beheersbaarheid speelt een cruciale rol in videogeneratie, omdat het gebruikers in staat stelt om gewenste inhoud te creëren. Bestaande modellen hebben echter grotendeels de precieze controle over camerapositie over het hoofd gezien, wat als een cinematische taal dient om diepere narratieve nuances uit te drukken. Om dit probleem te verlichten, introduceren we CameraCtrl, dat nauwkeurige camerapositiecontrole mogelijk maakt voor tekst-naar-video (T2V) modellen. Na het precies parametriseren van de cameratrajectorie, wordt een plug-and-play cameramodule getraind op een T2V-model, terwijl andere onderdelen onaangeroerd blijven. Daarnaast wordt een uitgebreide studie uitgevoerd naar het effect van verschillende datasets, wat suggereert dat video's met een diverse cameraverspreiding en vergelijkbare verschijningen inderdaad de beheersbaarheid en generalisatie verbeteren. Experimentele resultaten tonen de effectiviteit van CameraCtrl aan in het bereiken van precieze en domeinadaptieve camerabesturing, wat een stap voorwaarts betekent in het streven naar dynamisch en gepersonaliseerd videoverhaal vanuit tekstuele en camerapositie-inputs. Ons projectwebsite is te vinden op: https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.
PDF241November 26, 2024