ChatPaper.aiChatPaper

CameraCtrl: 텍스트-비디오 생성을 위한 카메라 제어 기능 활성화

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

April 2, 2024
저자: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
cs.AI

초록

제어 가능성은 사용자가 원하는 콘텐츠를 생성할 수 있도록 해준다는 점에서 비디오 생성에서 중요한 역할을 합니다. 그러나 기존 모델들은 더 깊은 내러티브 뉘앙스를 표현하는 시네마틱 언어로서의 카메라 포즈를 정밀하게 제어하는 데 크게 소홀히 해왔습니다. 이 문제를 해결하기 위해, 우리는 텍스트-투-비디오(T2V) 모델을 위한 정확한 카메라 포즈 제어를 가능하게 하는 CameraCtrl을 소개합니다. 카메라 궤적을 정밀하게 매개변수화한 후, 플러그 앤 플레이 방식의 카메라 모듈을 T2V 모델에 학습시켜 다른 부분은 그대로 유지합니다. 또한, 다양한 데이터셋의 효과에 대한 포괄적인 연구를 수행하여, 다양한 카메라 분포와 유사한 외관을 가진 비디오가 실제로 제어 가능성과 일반화를 향상시킨다는 것을 보여줍니다. 실험 결과는 CameraCtrl이 정밀하고 도메인 적응적인 카메라 제어를 달성하는 데 효과적임을 입증하며, 텍스트와 카메라 포즈 입력으로부터 동적이고 맞춤화된 비디오 스토리텔링을 추구하는 데 한 걸음 더 나아갔음을 보여줍니다. 우리의 프로젝트 웹사이트는 https://hehao13.github.io/projects-CameraCtrl/에서 확인할 수 있습니다.
English
Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.

Summary

AI-Generated Summary

PDF251November 26, 2024