CameraCtrl: Habilitando Controle de Câmera para Geração de Texto para Vídeo
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
April 2, 2024
Autores: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI
Resumo
A controlabilidade desempenha um papel crucial na geração de vídeos, pois permite que os usuários criem o conteúdo desejado. No entanto, os modelos existentes em grande parte negligenciaram o controle preciso da pose da câmera, que serve como uma linguagem cinematográfica para expressar nuances narrativas mais profundas. Para mitigar esse problema, introduzimos o CameraCtrl, que possibilita o controle preciso da pose da câmera em modelos de texto para vídeo (T2V). Após parametrizar com precisão a trajetória da câmera, um módulo de câmera plug-and-play é então treinado em um modelo T2V, deixando os outros inalterados. Além disso, um estudo abrangente sobre o efeito de vários conjuntos de dados também foi conduzido, sugerindo que vídeos com distribuição diversificada de câmeras e aparências semelhantes realmente melhoram a controlabilidade e a generalização. Os resultados experimentais demonstram a eficácia do CameraCtrl na obtenção de um controle de câmera preciso e adaptável ao domínio, representando um avanço na busca por narrativas de vídeo dinâmicas e personalizadas a partir de entradas textuais e de pose da câmera. O site do nosso projeto está em: https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows
users to create desired content. However, existing models largely overlooked
the precise control of camera pose that serves as a cinematic language to
express deeper narrative nuances. To alleviate this issue, we introduce
CameraCtrl, enabling accurate camera pose control for text-to-video(T2V)
models. After precisely parameterizing the camera trajectory, a plug-and-play
camera module is then trained on a T2V model, leaving others untouched.
Additionally, a comprehensive study on the effect of various datasets is also
conducted, suggesting that videos with diverse camera distribution and similar
appearances indeed enhance controllability and generalization. Experimental
results demonstrate the effectiveness of CameraCtrl in achieving precise and
domain-adaptive camera control, marking a step forward in the pursuit of
dynamic and customized video storytelling from textual and camera pose inputs.
Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.