CameraCtrl : Activation du contrôle de la caméra pour la génération de vidéos à partir de texte
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
April 2, 2024
Auteurs: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI
Résumé
La contrôlabilité joue un rôle crucial dans la génération vidéo, car elle permet aux utilisateurs de créer le contenu souhaité. Cependant, les modèles existants ont largement négligé le contrôle précis de la pose de la caméra, qui sert de langage cinématographique pour exprimer des nuances narratives plus profondes. Pour remédier à ce problème, nous introduisons CameraCtrl, permettant un contrôle précis de la pose de la caméra pour les modèles de texte-à-vidéo (T2V). Après avoir paramétré avec précision la trajectoire de la caméra, un module de caméra plug-and-play est ensuite entraîné sur un modèle T2V, laissant les autres intacts. De plus, une étude approfondie sur l'effet de divers ensembles de données est également menée, suggérant que les vidéos avec une distribution variée de caméras et des apparences similaires améliorent en effet la contrôlabilité et la généralisation. Les résultats expérimentaux démontrent l'efficacité de CameraCtrl pour atteindre un contrôle de caméra précis et adaptatif au domaine, marquant une avancée dans la quête d'une narration vidéo dynamique et personnalisée à partir d'entrées textuelles et de poses de caméra. Notre site web de projet est disponible à l'adresse : https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows
users to create desired content. However, existing models largely overlooked
the precise control of camera pose that serves as a cinematic language to
express deeper narrative nuances. To alleviate this issue, we introduce
CameraCtrl, enabling accurate camera pose control for text-to-video(T2V)
models. After precisely parameterizing the camera trajectory, a plug-and-play
camera module is then trained on a T2V model, leaving others untouched.
Additionally, a comprehensive study on the effect of various datasets is also
conducted, suggesting that videos with diverse camera distribution and similar
appearances indeed enhance controllability and generalization. Experimental
results demonstrate the effectiveness of CameraCtrl in achieving precise and
domain-adaptive camera control, marking a step forward in the pursuit of
dynamic and customized video storytelling from textual and camera pose inputs.
Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.Summary
AI-Generated Summary