Drag View: Generaliseerbare Nieuwe Weergave Synthese met Ongepositioneerde Beelden
Drag View: Generalizable Novel View Synthesis with Unposed Imagery
October 5, 2023
Auteurs: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI
Samenvatting
We introduceren DragView, een nieuw en interactief raamwerk voor het genereren van nieuwe aanzichten van onbekende scènes. DragView initialiseert het nieuwe aanzicht vanuit een enkele bronafbeelding, en de rendering wordt ondersteund door een spaarse set van niet-geposeerde multi-view afbeeldingen, allemaal naadloos uitgevoerd in een enkele feed-forward pass. Onze aanpak begint met gebruikers die een bronaanzicht slepen door een lokaal relatief coördinatensysteem. Pixel-uitgelijnde kenmerken worden verkregen door de bemonsterde 3D-punten langs de doelstraal te projecteren op het bronaanzicht. Vervolgens incorporeren we een aanzicht-afhankelijke modulatielaag om occlusie effectief te hanteren tijdens de projectie. Daarnaast breiden we het epipolaire aandachtmechanisme uit om alle bronpixels te omvatten, wat de aggregatie van geïnitialiseerde coördinaat-uitgelijnde puntkenmerken vanuit andere niet-geposeerde aanzichten vergemakkelijkt. Ten slotte gebruiken we nog een transformer om straalkenmerken te decoderen naar uiteindelijke pixelintensiteiten. Cruciaal is dat ons raamwerk niet afhankelijk is van 2D-voorafgaande modellen of de expliciete schatting van cameraposes. Tijdens het testen toont DragView de mogelijkheid om te generaliseren naar nieuwe scènes die niet tijdens de training zijn gezien, waarbij ook alleen niet-geposeerde ondersteuningsafbeeldingen worden gebruikt, wat de generatie van foto-realistische nieuwe aanzichten mogelijk maakt die worden gekenmerkt door flexibele cameratrajecten. In onze experimenten voeren we een uitgebreide vergelijking uit van de prestaties van DragView met recente scène-representatienetwerken die werken onder pose-vrije omstandigheden, evenals met generaliseerbare NeRFs die onderhevig zijn aan ruis in testcameraposes. DragView toont consequent zijn superieure prestaties in de kwaliteit van aanzichtsynthese, terwijl het ook gebruiksvriendelijker is. Projectpagina: https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel
views of unseen scenes. DragView initializes the new view from a single source
image, and the rendering is supported by a sparse set of unposed multi-view
images, all seamlessly executed within a single feed-forward pass. Our approach
begins with users dragging a source view through a local relative coordinate
system. Pixel-aligned features are obtained by projecting the sampled 3D points
along the target ray onto the source view. We then incorporate a view-dependent
modulation layer to effectively handle occlusion during the projection.
Additionally, we broaden the epipolar attention mechanism to encompass all
source pixels, facilitating the aggregation of initialized coordinate-aligned
point features from other unposed views. Finally, we employ another transformer
to decode ray features into final pixel intensities. Crucially, our framework
does not rely on either 2D prior models or the explicit estimation of camera
poses. During testing, DragView showcases the capability to generalize to new
scenes unseen during training, also utilizing only unposed support images,
enabling the generation of photo-realistic new views characterized by flexible
camera trajectories. In our experiments, we conduct a comprehensive comparison
of the performance of DragView with recent scene representation networks
operating under pose-free conditions, as well as with generalizable NeRFs
subject to noisy test camera poses. DragView consistently demonstrates its
superior performance in view synthesis quality, while also being more
user-friendly. Project page: https://zhiwenfan.github.io/DragView/.