CameraCtrl: Abilitazione del Controllo della Fotocamera per la Generazione di Video da Testo
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
April 2, 2024
Autori: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI
Abstract
La controllabilità svolge un ruolo cruciale nella generazione di video poiché consente agli utenti di creare contenuti desiderati. Tuttavia, i modelli esistenti hanno largamente trascurato il controllo preciso della posa della telecamera, che funge da linguaggio cinematografico per esprimere sfumature narrative più profonde. Per mitigare questo problema, introduciamo CameraCtrl, che abilita un controllo accurato della posa della telecamera per i modelli di testo-a-video (T2V). Dopo aver parametrizzato con precisione la traiettoria della telecamera, un modulo plug-and-play della telecamera viene addestrato su un modello T2V, lasciando gli altri invariati. Inoltre, viene condotto uno studio approfondito sull'effetto di vari dataset, suggerendo che i video con una distribuzione diversificata della telecamera e aspetti simili migliorano effettivamente la controllabilità e la generalizzazione. I risultati sperimentali dimostrano l'efficacia di CameraCtrl nel raggiungere un controllo preciso e adattabile al dominio della telecamera, segnando un passo avanti nella ricerca di una narrazione video dinamica e personalizzata a partire da input testuali e di posa della telecamera. Il sito web del nostro progetto è disponibile all'indirizzo: https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows
users to create desired content. However, existing models largely overlooked
the precise control of camera pose that serves as a cinematic language to
express deeper narrative nuances. To alleviate this issue, we introduce
CameraCtrl, enabling accurate camera pose control for text-to-video(T2V)
models. After precisely parameterizing the camera trajectory, a plug-and-play
camera module is then trained on a T2V model, leaving others untouched.
Additionally, a comprehensive study on the effect of various datasets is also
conducted, suggesting that videos with diverse camera distribution and similar
appearances indeed enhance controllability and generalization. Experimental
results demonstrate the effectiveness of CameraCtrl in achieving precise and
domain-adaptive camera control, marking a step forward in the pursuit of
dynamic and customized video storytelling from textual and camera pose inputs.
Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.