Drag View: Sintesi Generalizzabile di Nuove Viste con Immagini Non Posed

Abstract

Introduciamo DragView, un framework innovativo e interattivo per la generazione di nuove visualizzazioni di scene non viste. DragView inizializza la nuova visualizzazione a partire da una singola immagine sorgente, e il rendering è supportato da un insieme sparso di immagini multi-vista non posizionate, tutto eseguito in modo fluido all'interno di un unico passaggio in avanti. Il nostro approccio inizia con l'utente che trascina una vista sorgente attraverso un sistema di coordinate relative locali. Le caratteristiche allineate ai pixel vengono ottenute proiettando i punti 3D campionati lungo il raggio target sulla vista sorgente. Successivamente, incorporiamo uno strato di modulazione dipendente dalla vista per gestire efficacemente le occlusioni durante la proiezione. Inoltre, ampliamo il meccanismo di attenzione epipolare per includere tutti i pixel sorgente, facilitando l'aggregazione delle caratteristiche dei punti allineati alle coordinate inizializzate da altre viste non posizionate. Infine, utilizziamo un altro trasformatore per decodificare le caratteristiche del raggio in intensità di pixel finali. Fondamentalmente, il nostro framework non si basa né su modelli 2D preesistenti né sulla stima esplicita delle pose della telecamera. Durante i test, DragView dimostra la capacità di generalizzare a nuove scene non viste durante l'addestramento, utilizzando anche solo immagini di supporto non posizionate, consentendo la generazione di nuove visualizzazioni foto-realistiche caratterizzate da traiettorie della telecamera flessibili. Nei nostri esperimenti, conduciamo un confronto completo delle prestazioni di DragView con reti di rappresentazione di scene recenti che operano in condizioni senza pose, nonché con NeRF generalizzabili soggetti a pose di telecamera di test rumorose. DragView dimostra costantemente una performance superiore nella qualità della sintesi delle viste, risultando anche più user-friendly. Pagina del progetto: https://zhiwenfan.github.io/DragView/.

English

We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.

Drag View: Sintesi Generalizzabile di Nuove Viste con Immagini Non Posed

Drag View: Generalizable Novel View Synthesis with Unposed Imagery

Abstract

Support