ChatPaper.aiChatPaper

DualCamCtrl: ジオメトリ認識型カメラ制御ビデオ生成のためのデュアルブランチ拡散モデル

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

November 28, 2025
著者: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen
cs.AI

要旨

本論文では、カメラ制御によるビデオ生成のための新しいend-to-end拡散モデルであるDualCamCtrlを提案する。近年の研究ではカメラ姿勢を光線ベースの条件として表現することでこの分野が進展しているが、十分なシーン理解と幾何学的認識を欠く場合が多い。DualCamCtrlはこの課題に特化し、カメラ整合性のあるRGBシーケンスと深度シーケンスを相互生成するデュアルブランチフレームワークを導入する。これら二つのモダリティを調和させるため、意味情報に導かれた相互強化手法でRGBと深度の融合を行うSemantic Guided Mutual Alignment(SIGMA)機構をさらに提案する。これらの設計により、DualCamCtrlは外観モデリングと幾何モデリングをより効果的に分離し、指定されたカメラ軌道に忠実なビデオ生成を実現する。加えて、ノイズ除去プロセスにおける深度とカメラ姿勢の影響を段階別に分析し、初期段階と後期段階がそれぞれ大域構造の形成と局所詳細の洗練において相補的役割を果たすことを明らかにする。大規模な実験により、DualCamCtrlが従来手法と比較してカメラ運動誤差を40%以上低減し、より一貫性のあるカメラ制御ビデオ生成を達成することを実証する。プロジェクトページ:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
English
This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
PDF381December 4, 2025