Drag View: Generalisierbare Synthese neuartiger Ansichten mit unpositionierten Bildern
Drag View: Generalizable Novel View Synthesis with Unposed Imagery
October 5, 2023
papers.authors: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI
papers.abstract
Wir stellen DragView vor, ein neuartiges und interaktives Framework zur Erzeugung neuer Ansichten von unbekannten Szenen. DragView initialisiert die neue Ansicht aus einem einzelnen Quellbild, wobei das Rendering durch eine spärliche Menge ungeposeter Multi-View-Bilder unterstützt wird, alles nahtlos in einem einzigen Feed-Forward-Durchlauf ausgeführt. Unser Ansatz beginnt damit, dass Benutzer eine Quellansicht durch ein lokales relatives Koordinatensystem ziehen. Pixelgenaue Merkmale werden durch die Projektion der abgetasteten 3D-Punkte entlang des Zielstrahls auf die Quellansicht gewonnen. Anschließend integrieren wir eine ansichtsabhängige Modulationsschicht, um Okklusionen während der Projektion effektiv zu handhaben. Zudem erweitern wir den epipolaren Aufmerksamkeitsmechanismus, um alle Quellpixel einzubeziehen, was die Aggregation von initialisierten koordinatenausgerichteten Punktmerkmalen aus anderen ungeposeten Ansichten erleichtert. Schließlich verwenden wir einen weiteren Transformer, um Strahlmerkmale in endgültige Pixelintensitäten zu dekodieren. Entscheidend ist, dass unser Framework weder auf 2D-Prior-Modelle noch auf die explizite Schätzung von Kameraposen angewiesen ist. Während des Tests zeigt DragView die Fähigkeit, sich auf neue Szenen zu verallgemeinern, die während des Trainings nicht gesehen wurden, und nutzt dabei nur ungeposte Unterstützungsbilder, was die Erzeugung fotorealistischer neuer Ansichten mit flexiblen Kameratrajektorien ermöglicht. In unseren Experimenten führen wir einen umfassenden Vergleich der Leistung von DragView mit aktuellen Szenendarstellungsnetzwerken unter posierungsfreien Bedingungen sowie mit generalisierbaren NeRFs bei verrauschten Testkameraposen durch. DragView zeigt durchweg seine überlegene Leistung in der Qualität der Ansichtssynthese und ist dabei auch benutzerfreundlicher. Projektseite: https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel
views of unseen scenes. DragView initializes the new view from a single source
image, and the rendering is supported by a sparse set of unposed multi-view
images, all seamlessly executed within a single feed-forward pass. Our approach
begins with users dragging a source view through a local relative coordinate
system. Pixel-aligned features are obtained by projecting the sampled 3D points
along the target ray onto the source view. We then incorporate a view-dependent
modulation layer to effectively handle occlusion during the projection.
Additionally, we broaden the epipolar attention mechanism to encompass all
source pixels, facilitating the aggregation of initialized coordinate-aligned
point features from other unposed views. Finally, we employ another transformer
to decode ray features into final pixel intensities. Crucially, our framework
does not rely on either 2D prior models or the explicit estimation of camera
poses. During testing, DragView showcases the capability to generalize to new
scenes unseen during training, also utilizing only unposed support images,
enabling the generation of photo-realistic new views characterized by flexible
camera trajectories. In our experiments, we conduct a comprehensive comparison
of the performance of DragView with recent scene representation networks
operating under pose-free conditions, as well as with generalizable NeRFs
subject to noisy test camera poses. DragView consistently demonstrates its
superior performance in view synthesis quality, while also being more
user-friendly. Project page: https://zhiwenfan.github.io/DragView/.