Drag View: Generaliseerbare Nieuwe Weergave Synthese met Ongepositioneerde Beelden

Samenvatting

We introduceren DragView, een nieuw en interactief raamwerk voor het genereren van nieuwe aanzichten van onbekende scènes. DragView initialiseert het nieuwe aanzicht vanuit een enkele bronafbeelding, en de rendering wordt ondersteund door een spaarse set van niet-geposeerde multi-view afbeeldingen, allemaal naadloos uitgevoerd in een enkele feed-forward pass. Onze aanpak begint met gebruikers die een bronaanzicht slepen door een lokaal relatief coördinatensysteem. Pixel-uitgelijnde kenmerken worden verkregen door de bemonsterde 3D-punten langs de doelstraal te projecteren op het bronaanzicht. Vervolgens incorporeren we een aanzicht-afhankelijke modulatielaag om occlusie effectief te hanteren tijdens de projectie. Daarnaast breiden we het epipolaire aandachtmechanisme uit om alle bronpixels te omvatten, wat de aggregatie van geïnitialiseerde coördinaat-uitgelijnde puntkenmerken vanuit andere niet-geposeerde aanzichten vergemakkelijkt. Ten slotte gebruiken we nog een transformer om straalkenmerken te decoderen naar uiteindelijke pixelintensiteiten. Cruciaal is dat ons raamwerk niet afhankelijk is van 2D-voorafgaande modellen of de expliciete schatting van cameraposes. Tijdens het testen toont DragView de mogelijkheid om te generaliseren naar nieuwe scènes die niet tijdens de training zijn gezien, waarbij ook alleen niet-geposeerde ondersteuningsafbeeldingen worden gebruikt, wat de generatie van foto-realistische nieuwe aanzichten mogelijk maakt die worden gekenmerkt door flexibele cameratrajecten. In onze experimenten voeren we een uitgebreide vergelijking uit van de prestaties van DragView met recente scène-representatienetwerken die werken onder pose-vrije omstandigheden, evenals met generaliseerbare NeRFs die onderhevig zijn aan ruis in testcameraposes. DragView toont consequent zijn superieure prestaties in de kwaliteit van aanzichtsynthese, terwijl het ook gebruiksvriendelijker is. Projectpagina: https://zhiwenfan.github.io/DragView/.

English

We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.

Drag View: Generaliseerbare Nieuwe Weergave Synthese met Ongepositioneerde Beelden

Drag View: Generalizable Novel View Synthesis with Unposed Imagery

Samenvatting

Support