CameraCtrl: Habilitando el Control de Cámara para la Generación de Texto a Video
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
April 2, 2024
Autores: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI
Resumen
La controlabilidad juega un papel crucial en la generación de videos, ya que permite a los usuarios crear contenido deseado. Sin embargo, los modelos existentes han pasado por alto en gran medida el control preciso de la pose de la cámara, que sirve como un lenguaje cinematográfico para expresar matices narrativos más profundos. Para abordar este problema, presentamos CameraCtrl, que permite un control preciso de la pose de la cámara en modelos de texto a video (T2V). Después de parametrizar con precisión la trayectoria de la cámara, se entrena un módulo de cámara plug-and-play en un modelo T2V, dejando los demás componentes intactos. Además, se lleva a cabo un estudio exhaustivo sobre el efecto de varios conjuntos de datos, sugiriendo que los videos con una distribución diversa de cámaras y apariencias similares mejoran la controlabilidad y la generalización. Los resultados experimentales demuestran la eficacia de CameraCtrl para lograr un control de cámara preciso y adaptable al dominio, marcando un avance en la búsqueda de narrativas dinámicas y personalizadas a partir de entradas de texto y pose de cámara. Nuestro sitio web del proyecto está en: https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows
users to create desired content. However, existing models largely overlooked
the precise control of camera pose that serves as a cinematic language to
express deeper narrative nuances. To alleviate this issue, we introduce
CameraCtrl, enabling accurate camera pose control for text-to-video(T2V)
models. After precisely parameterizing the camera trajectory, a plug-and-play
camera module is then trained on a T2V model, leaving others untouched.
Additionally, a comprehensive study on the effect of various datasets is also
conducted, suggesting that videos with diverse camera distribution and similar
appearances indeed enhance controllability and generalization. Experimental
results demonstrate the effectiveness of CameraCtrl in achieving precise and
domain-adaptive camera control, marking a step forward in the pursuit of
dynamic and customized video storytelling from textual and camera pose inputs.
Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.Summary
AI-Generated Summary