Drag View: Sintesi Generalizzabile di Nuove Viste con Immagini Non Posed
Drag View: Generalizable Novel View Synthesis with Unposed Imagery
October 5, 2023
Autori: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI
Abstract
Introduciamo DragView, un framework innovativo e interattivo per la generazione di nuove visualizzazioni di scene non viste. DragView inizializza la nuova visualizzazione a partire da una singola immagine sorgente, e il rendering è supportato da un insieme sparso di immagini multi-vista non posizionate, tutto eseguito in modo fluido all'interno di un unico passaggio in avanti. Il nostro approccio inizia con l'utente che trascina una vista sorgente attraverso un sistema di coordinate relative locali. Le caratteristiche allineate ai pixel vengono ottenute proiettando i punti 3D campionati lungo il raggio target sulla vista sorgente. Successivamente, incorporiamo uno strato di modulazione dipendente dalla vista per gestire efficacemente le occlusioni durante la proiezione. Inoltre, ampliamo il meccanismo di attenzione epipolare per includere tutti i pixel sorgente, facilitando l'aggregazione delle caratteristiche dei punti allineati alle coordinate inizializzate da altre viste non posizionate. Infine, utilizziamo un altro trasformatore per decodificare le caratteristiche del raggio in intensità di pixel finali. Fondamentalmente, il nostro framework non si basa né su modelli 2D preesistenti né sulla stima esplicita delle pose della telecamera. Durante i test, DragView dimostra la capacità di generalizzare a nuove scene non viste durante l'addestramento, utilizzando anche solo immagini di supporto non posizionate, consentendo la generazione di nuove visualizzazioni foto-realistiche caratterizzate da traiettorie della telecamera flessibili. Nei nostri esperimenti, conduciamo un confronto completo delle prestazioni di DragView con reti di rappresentazione di scene recenti che operano in condizioni senza pose, nonché con NeRF generalizzabili soggetti a pose di telecamera di test rumorose. DragView dimostra costantemente una performance superiore nella qualità della sintesi delle viste, risultando anche più user-friendly. Pagina del progetto: https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel
views of unseen scenes. DragView initializes the new view from a single source
image, and the rendering is supported by a sparse set of unposed multi-view
images, all seamlessly executed within a single feed-forward pass. Our approach
begins with users dragging a source view through a local relative coordinate
system. Pixel-aligned features are obtained by projecting the sampled 3D points
along the target ray onto the source view. We then incorporate a view-dependent
modulation layer to effectively handle occlusion during the projection.
Additionally, we broaden the epipolar attention mechanism to encompass all
source pixels, facilitating the aggregation of initialized coordinate-aligned
point features from other unposed views. Finally, we employ another transformer
to decode ray features into final pixel intensities. Crucially, our framework
does not rely on either 2D prior models or the explicit estimation of camera
poses. During testing, DragView showcases the capability to generalize to new
scenes unseen during training, also utilizing only unposed support images,
enabling the generation of photo-realistic new views characterized by flexible
camera trajectories. In our experiments, we conduct a comprehensive comparison
of the performance of DragView with recent scene representation networks
operating under pose-free conditions, as well as with generalizable NeRFs
subject to noisy test camera poses. DragView consistently demonstrates its
superior performance in view synthesis quality, while also being more
user-friendly. Project page: https://zhiwenfan.github.io/DragView/.