Управление камерой: Включение управления камерой для генерации видео из текста
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
April 2, 2024
Авторы: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI
Аннотация
Контролируемость играет решающую роль в генерации видео, поскольку она позволяет пользователям создавать желаемый контент. Однако существующие модели в значительной степени пренебрегли точным контролем положения камеры, которое служит кинематографическим языком для выражения более глубоких нюансов повествования. Для устранения этой проблемы мы представляем CameraCtrl, обеспечивающий точный контроль положения камеры для моделей текст-в-видео (T2V). После точной параметризации траектории камеры модуль камеры "подключить и использовать" обучается на модели T2V, оставляя другие компоненты нетронутыми. Кроме того, также проводится всестороннее исследование влияния различных наборов данных, указывающее на то, что видеоролики с разнообразным распределением камеры и схожими внешними данными действительно улучшают контролируемость и обобщение. Экспериментальные результаты демонстрируют эффективность CameraCtrl в достижении точного и доменно-адаптивного управления камерой, что является шагом вперед в стремлении к динамичному и настраиваемому повествованию видео на основе текстовых и положения камеры. Наш веб-сайт проекта: https://hehao13.github.io/projects-CameraCtrl/.
English
Controllability plays a crucial role in video generation since it allows
users to create desired content. However, existing models largely overlooked
the precise control of camera pose that serves as a cinematic language to
express deeper narrative nuances. To alleviate this issue, we introduce
CameraCtrl, enabling accurate camera pose control for text-to-video(T2V)
models. After precisely parameterizing the camera trajectory, a plug-and-play
camera module is then trained on a T2V model, leaving others untouched.
Additionally, a comprehensive study on the effect of various datasets is also
conducted, suggesting that videos with diverse camera distribution and similar
appearances indeed enhance controllability and generalization. Experimental
results demonstrate the effectiveness of CameraCtrl in achieving precise and
domain-adaptive camera control, marking a step forward in the pursuit of
dynamic and customized video storytelling from textual and camera pose inputs.
Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.Summary
AI-Generated Summary