CameraCtrl: Abilitazione del Controllo della Fotocamera per la Generazione di Video da Testo

Abstract

La controllabilità svolge un ruolo cruciale nella generazione di video poiché consente agli utenti di creare contenuti desiderati. Tuttavia, i modelli esistenti hanno largamente trascurato il controllo preciso della posa della telecamera, che funge da linguaggio cinematografico per esprimere sfumature narrative più profonde. Per mitigare questo problema, introduciamo CameraCtrl, che abilita un controllo accurato della posa della telecamera per i modelli di testo-a-video (T2V). Dopo aver parametrizzato con precisione la traiettoria della telecamera, un modulo plug-and-play della telecamera viene addestrato su un modello T2V, lasciando gli altri invariati. Inoltre, viene condotto uno studio approfondito sull'effetto di vari dataset, suggerendo che i video con una distribuzione diversificata della telecamera e aspetti simili migliorano effettivamente la controllabilità e la generalizzazione. I risultati sperimentali dimostrano l'efficacia di CameraCtrl nel raggiungere un controllo preciso e adattabile al dominio della telecamera, segnando un passo avanti nella ricerca di una narrazione video dinamica e personalizzata a partire da input testuali e di posa della telecamera. Il sito web del nostro progetto è disponibile all'indirizzo: https://hehao13.github.io/projects-CameraCtrl/.

English

Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.

CameraCtrl: Abilitazione del Controllo della Fotocamera per la Generazione di Video da Testo

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Abstract

Support