UniGeo: Unificação da Orientação Geométrica para Edição de Imagens Controlável por Câmera através de Modelos de Vídeo

Resumo

A edição de imagens controlável por câmera visa sintetizar novas visualizações de uma determinada cena sob diferentes poses de câmera, preservando rigorosamente a consistência geométrica entre vistas. No entanto, os métodos existentes geralmente dependem de orientação geométrica fragmentada, como apenas injetar nuvens de pontos no nível de representação, apesar dos modelos conterem múltiplos níveis, e baseiam-se principalmente em modelos de difusão de imagem que operam em mapeamentos de vista discretos. Essas duas limitações conduzem conjuntamente a deriva geométrica e degradação estrutural sob movimento contínuo da câmera. Observamos que, embora a utilização de modelos de vídeo forneça priors de ponto de vista contínuos para a edição de imagens controlável por câmera, eles ainda lutam para formar uma compreensão geométrica estável se a orientação geométrica permanecer fragmentada. Para abordar isso sistematicamente, injetamos orientação geométrica unificada em três níveis que determinam conjuntamente a saída generativa: representação, arquitetura e função de perda. Para esse fim, propomos o UniGeo, uma nova estrutura de edição controlável por câmera. Especificamente, no nível de representação, o UniGeo incorpora um mecanismo de injeção de referência geométrica com quadros desacoplados para fornecer contexto geométrico robusto entre vistas. No nível arquitetural, introduz a atenção com âncora geométrica para alinhar características multivista. No nível da função de perda, propõe uma estratégia de supervisão geométrica de ponto-final de trajetória para reforçar explicitamente a fidelidade estrutural das vistas-alvo. Experimentos abrangentes em vários benchmarks públicos, abrangendo configurações de movimento de câmera extensivas e limitadas, demonstram que o UniGeo supera significativamente os métodos existentes tanto em qualidade visual quanto em consistência geométrica.

English

Camera-controllable image editing aims to synthesize novel views of a given scene under varying camera poses while strictly preserving cross-view geometric consistency. However, existing methods typically rely on fragmented geometric guidance, such as only injecting point clouds at the representation level despite models containing multiple levels, and are mainly based on image diffusion models that operate on discrete view mappings. These two limitations jointly lead to geometric drift and structural degradation under continuous camera motion. We observe that while leveraging video models provides continuous viewpoint priors for camera-controllable image editing, they still struggle to form stable geometric understanding if geometric guidance remains fragmented. To systematically address this, we inject unified geometric guidance across three levels that jointly determine the generative output: representation, architecture, and loss function. To this end, we propose UniGeo, a novel camera-controllable editing framework. Specifically, at the representation level, UniGeo incorporates a frame-decoupled geometric reference injection mechanism to provide robust cross-view geometry context. At the architecture level, it introduces geometric anchor attention to align multi-view features. At the loss function level, it proposes a trajectory-endpoint geometric supervision strategy to explicitly reinforce the structural fidelity of target views. Comprehensive experiments across multiple public benchmarks, encompassing both extensive and limited camera motion settings, demonstrate that UniGeo significantly outperforms existing methods in both visual quality and geometric consistency.

UniGeo: Unificação da Orientação Geométrica para Edição de Imagens Controlável por Câmera através de Modelos de Vídeo

UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models

Resumo

Support