DualCamCtrl: 기하 인식 카메라 제어 비디오 생성을 위한 듀얼 브랜치 확산 모델
DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
November 28, 2025
저자: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen
cs.AI
초록
이 논문에서는 카메라 제어 비디오 생성을 위한 새로운 종단간(end-to-end) 확산 모델인 DualCamCtrl을 제안한다. 최근 연구들은 카메라 포즈를 레이 기반 조건으로 표현하여 이 분야를 발전시켜 왔지만, 종종 충분한 장면 이해와 기하학적 인식을 결여하고 있다. DualCamCtrl은 카메라 일관성을 갖춘 RGB 시퀀스와 깊이 시퀀스를 상호 생성하는 듀얼-브랜치(dual-branch) 프레임워크를 도입하여 이러한 한계를 구체적으로 해결한다. 두 양상을 조화시키기 위해 우리는 의미론적으로 유도되고 상호 강화되는 방식으로 RGB-깊이 융합을 수행하는 시맨틱 가이디드 상호 정렬(Semantic Guided Mutual Alignment, SIGMA) 메커니즘을 추가로 제안한다. 이러한 설계는 종합적으로 DualCamCtrl이 외관과 기하학적 모델링을 더 효과적으로 분리하여 지정된 카메라 궤적에 더 충실히 따르는 비디오를 생성할 수 있게 한다. 또한, 우리는 잡음 제거 단계에 걸쳐 깊이와 카메라 포즈가 미치는 상이한 영향을 분석하고 밝혔으며, 초기 단계와 후기 단계가 각각 전역 구조 형성과 지역적 세부 사항 정교화에 상호 보완적인 역할을 한다는 점을 추가로 입증한다. 광범위한 실험을 통해 DualCamCtrl이 기존 방법 대비 카메라 운동 오류를 40% 이상 감소시키며 더 일관된 카메라 제어 비디오 생성을 달성함을 보여준다. 우리의 프로젝트 페이지는 https://soyouthinkyoucantell.github.io/dualcamctrl-page/ 이다.
English
This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/