ChatPaper.aiChatPaper

DualCamCtrl: Modello di Diffusione a Doppio Ramo per la Generazione di Video Controllati dalla Fotocamera con Consapevolezza Geometrica

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

November 28, 2025
Autori: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen
cs.AI

Abstract

Questo articolo presenta DualCamCtrl, un innovativo modello di diffusione end-to-end per la generazione di video controllati da telecamera. I lavori recenti hanno fatto progredire questo campo rappresentando le pose della telecamera come condizioni basate su raggi, ma spesso mancano di una comprensione della scena e di una consapevolezza geometrica sufficienti. DualCamCtrl affronta specificamente questa limitazione introducendo un framework a doppio ramo che genera mutualmente sequenze RGB e di profondità consistenti con la telecamera. Per armonizzare queste due modalità, proponiamo ulteriormente il meccanismo di Allineamento Reciproco Guidato dalla Semantica (SIGMA), che esegue la fusione RGB-profondità in modo guidato semanticamente e rafforzato reciprocamente. Questi design consentono collettivamente a DualCamCtrl di separare meglio la modellazione dell'aspetto e della geometria, generando video che aderiscono più fedelmente alle traiettorie specificate della telecamera. Inoltre, analizziamo e riveliamo la distinta influenza della profondità e delle pose della telecamera attraverso le fasi di denoising e dimostriamo ulteriormente che gli stadi iniziali e finali svolgono ruoli complementari nella formazione della struttura globale e nel perfezionamento dei dettagli locali. Esperimenti estensivi dimostrano che DualCamCtrl raggiunge una generazione di video controllati da telecamera più consistente, con una riduzione di oltre il 40% degli errori di movimento della telecamera rispetto ai metodi precedenti. La nostra pagina del progetto: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
English
This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
PDF381December 4, 2025