UniGeo: Unificazione della Guida Geometrica per la Modifica delle Immagini Controllabile da Camera tramite Modelli Video

Abstract

L'editing di immagini controllabile tramite fotocamera mira a sintetizzare nuove visuali di una data scena sotto diverse pose della fotocamera, preservando rigorosamente la consistenza geometrica tra le viste. Tuttavia, i metodi esistenti si basano tipicamente su una guida geometrica frammentata, come iniettare solo nuvole di punti a livello di rappresentazione nonostante i modelli contengano più livelli, e sono principalmente basati su modelli di diffusione di immagini che operano su mappature di vista discrete. Queste due limitazioni portano congiuntamente a deriva geometrica e degrado strutturale sotto moto continuo della fotocamera. Osserviamo che, sebbene l'utilizzo di modelli video fornisca prior continui del punto di vista per l'editing controllabile, essi faticano comunque a formare una comprensione geometrica stabile se la guida geometrica rimane frammentata. Per affrontare sistematicamente questo problema, iniettiamo una guida geometrica unificata attraverso tre livelli che determinano congiuntamente l'output generativo: rappresentazione, architettura e funzione di perdita. A tal fine, proponiamo UniGeo, un nuovo framework di editing controllabile dalla fotocamera. Nello specifico, a livello di rappresentazione, UniGeo incorpora un meccanismo di iniezione di riferimento geometrico disaccoppiato dal frame per fornire un contesto geometrico robusto tra le viste. A livello architetturale, introduce un'attenzione di ancoraggio geometrico per allineare le caratteristiche multi-vista. A livello della funzione di perdita, propone una strategia di supervisione geometrica endpoint della traiettoria per rafforzare esplicitamente la fedeltà strutturale delle viste target. Esperimenti completi su molteplici benchmark pubblici, che coprono sia impostazioni di moto della fotocamera esteso che limitato, dimostrano che UniGeo supera significativamente i metodi esistenti sia nella qualità visiva che nella consistenza geometrica.

English

Camera-controllable image editing aims to synthesize novel views of a given scene under varying camera poses while strictly preserving cross-view geometric consistency. However, existing methods typically rely on fragmented geometric guidance, such as only injecting point clouds at the representation level despite models containing multiple levels, and are mainly based on image diffusion models that operate on discrete view mappings. These two limitations jointly lead to geometric drift and structural degradation under continuous camera motion. We observe that while leveraging video models provides continuous viewpoint priors for camera-controllable image editing, they still struggle to form stable geometric understanding if geometric guidance remains fragmented. To systematically address this, we inject unified geometric guidance across three levels that jointly determine the generative output: representation, architecture, and loss function. To this end, we propose UniGeo, a novel camera-controllable editing framework. Specifically, at the representation level, UniGeo incorporates a frame-decoupled geometric reference injection mechanism to provide robust cross-view geometry context. At the architecture level, it introduces geometric anchor attention to align multi-view features. At the loss function level, it proposes a trajectory-endpoint geometric supervision strategy to explicitly reinforce the structural fidelity of target views. Comprehensive experiments across multiple public benchmarks, encompassing both extensive and limited camera motion settings, demonstrate that UniGeo significantly outperforms existing methods in both visual quality and geometric consistency.

UniGeo: Unificazione della Guida Geometrica per la Modifica delle Immagini Controllabile da Camera tramite Modelli Video

UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models

Abstract

Support