DualCamCtrl: Modelo de Difusão de Duplo Ramo para Geração de Vídeo Controlado por Câmera com Consciência Geométrica

Resumo

Este artigo apresenta o DualCamCtrl, um novo modelo de difusão de ponta a ponta para geração de vídeo controlado por câmera. Trabalhos recentes avançaram neste campo representando poses de câmera como condições baseadas em raios, no entanto, frequentemente carecem de compreensão suficiente da cena e de consciência geométrica. O DualCamCtrl visa especificamente esta limitação ao introduzir uma estrutura de ramo duplo que gera mutuamente sequências RGB e de profundidade consistentes com a câmera. Para harmonizar estas duas modalidades, propomos ainda o mecanismo de Alinhamento Mútuo Guiado por Semântica (SIGMA), que realiza a fusão RGB-profundidade de uma forma guiada por semântica e mutuamente reforçada. Estes projetos permitem coletivamente ao DualCamCtrl separar melhor a modelagem de aparência e geometria, gerando vídeos que aderem mais fielmente às trajetórias de câmera especificadas. Adicionalmente, analisamos e revelamos a influência distinta da profundidade e das poses da câmera através dos estágios de remoção de ruído e demonstramos ainda que os estágios iniciais e finais desempenham papéis complementares na formação da estrutura global e no refinamento de detalhes locais. Experimentos extensivos demonstram que o DualCamCtrl alcança uma geração de vídeo controlado por câmera mais consistente, com uma redução de mais de 40% nos erros de movimento da câmera em comparação com métodos anteriores. Nossa página do projeto: https://soyouthinkyoucantell.github.io/dualcamctrl-page/

English

This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/

DualCamCtrl: Modelo de Difusão de Duplo Ramo para Geração de Vídeo Controlado por Câmera com Consciência Geométrica

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

Resumo

Support