ChatPaper.aiChatPaper

DualCamCtrl : Modèle de diffusion à double branche pour la génération de vidéos contrôlées par caméra avec conscience géométrique

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

November 28, 2025
papers.authors: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen
cs.AI

papers.abstract

Ce papier présente DualCamCtrl, un nouveau modèle de diffusion de bout en bout pour la génération de vidéos contrôlée par caméra. Les travaux récents ont fait progresser ce domaine en représentant les poses de caméra comme des conditions basées sur des rayons, mais ils manquent souvent d'une compréhension suffisante de la scène et d'une conscience géométrique. DualCamCtrl cible spécifiquement cette limitation en introduisant un cadre à double branche qui génère mutuellement des séquences RVB et de profondeur cohérentes avec la caméra. Pour harmoniser ces deux modalités, nous proposons en outre le mécanisme d'Alignement Mutuel Guidé par la Sémantique (SIGMA), qui effectue la fusion RVB-profondeur de manière guidée par la sémantique et mutuellement renforcée. Ces conceptions permettent collectivement à DualCamCtrl de mieux dissocier la modélisation de l'apparence et de la géométrie, générant des vidéos qui adhèrent plus fidèlement aux trajectoires de caméra spécifiées. De plus, nous analysons et révélons l'influence distincte de la profondeur et des poses de caméra à travers les étapes de débruitage et démontrons en outre que les étapes précoces et tardives jouent des rôles complémentaires dans la formation de la structure globale et l'affinement des détails locaux. Des expériences approfondies démontrent que DualCamCtrl permet une génération de vidéos contrôlée par caméra plus cohérente, avec une réduction de plus de 40 % des erreurs de mouvement de caméra par rapport aux méthodes antérieures. Notre page projet : https://soyouthinkyoucantell.github.io/dualcamctrl-page/
English
This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
PDF381December 4, 2025