ChatPaper.aiChatPaper

비디오 생성을 위한 학습 없는 카메라 제어

Training-free Camera Control for Video Generation

June 14, 2024
저자: Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen
cs.AI

초록

카메라 움직임 제어를 위한 기존 비디오 확산 모델에 적용 가능한 학습이 필요 없고 강력한 솔루션을 제안합니다. 기존 연구와 달리, 우리의 방법은 카메라 주석이 달린 데이터셋에 대한 지도 미세 조정이나 데이터 증강을 통한 자기 지도 학습을 필요로 하지 않습니다. 대신, 대부분의 사전 학습된 비디오 확산 모델에 바로 적용할 수 있으며, 단일 이미지나 텍스트 프롬프트를 입력으로 하여 카메라 제어가 가능한 비디오를 생성할 수 있습니다. 우리 연구의 영감은 중간 잠재 공간이 생성 결과에 대해 가지는 레이아웃 사전 정보에서 비롯되었습니다. 따라서 이 잠재 공간 내의 노이즈 픽셀을 재배열하면 출력 내용도 재배치될 수 있습니다. 카메라 움직임 또한 시점 변화에 의해 발생하는 픽셀 재배열의 일종으로 볼 수 있으므로, 노이즈 잠재 공간이 이에 따라 변화하면 특정 카메라 모션에 따라 비디오를 재구성할 수 있습니다. 이를 바탕으로, 우리는 비디오 확산 모델에 강력한 카메라 제어를 가능하게 하는 CamTrol 방법을 제안합니다. 이는 두 단계의 과정을 통해 이루어집니다. 먼저, 3D 포인트 클라우드 공간에서 명시적인 카메라 움직임을 통해 이미지 레이아웃 재배열을 모델링합니다. 둘째, 일련의 재배열된 이미지로 형성된 노이즈 잠재 공간의 레이아웃 사전 정보를 사용하여 카메라 모션이 적용된 비디오를 생성합니다. 광범위한 실험을 통해 우리 방법이 생성된 비디오의 카메라 모션을 제어하는 데 있어 강력함을 입증했습니다. 또한, 우리의 방법이 동적 콘텐츠를 포함한 3D 회전 비디오 생성에서도 인상적인 결과를 만들어낼 수 있음을 보여줍니다. 프로젝트 페이지는 https://lifedecoder.github.io/CamTrol/에서 확인할 수 있습니다.
English
We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.

Summary

AI-Generated Summary

PDF122December 6, 2024