ChatPaper.aiChatPaper

DualCamCtrl: Dual-Branch Diffusiemodel voor Geometriebewuste, Camera-gestuurde Videogeneratie

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

November 28, 2025
Auteurs: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen
cs.AI

Samenvatting

Dit artikel presenteert DualCamCtrl, een nieuw end-to-end diffusiemodel voor cameragestuurde videogeneratie. Recente werken hebben dit veld vooruitgebracht door cameraposes als op stralen gebaseerde condities weer te geven, maar ze vertonen vaak onvoldoende scènebegrip en geometrisch bewustzijn. DualCamCtrl richt zich specifiek op deze beperking door een dual-branch raamwerk te introduceren dat onderling cameraconsistente RGB- en dieptesequenties genereert. Om deze twee modaliteiten te harmoniseren, stellen we verder het Semantic Guided Mutual Alignment (SIGMA)-mechanisme voor, dat RGB-dieptefusie uitvoert op een semantisch geleide en wederzijds versterkte manier. Deze ontwerpen stellen DualCamCtrl gezamenlijk in staat om modellering van verschijning en geometrie beter te ontwarren, waardoor video's worden gegenereerd die trouwer de gespecificeerde cameratrajecten volgen. Daarnaast analyseren en onthullen we de distinctieve invloed van diepte en cameraposes over de denoiseringsstadia heen en tonen we verder aan dat vroege en late stadia een complementaire rol spelen bij het vormen van de globale structuur en het verfijnen van lokale details. Uitgebreide experimenten tonen aan dat DualCamCtrl consistentere cameragestuurde videogeneratie bereikt, met een reductie van meer dan 40% in camerabewegingsfouten in vergelijking met eerdere methoden. Onze projectpagina: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
English
This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
PDF381December 4, 2025