ChatPaper.aiChatPaper

Drag View : Synthèse de vues nouvelles généralisables avec des images non positionnées

Drag View: Generalizable Novel View Synthesis with Unposed Imagery

October 5, 2023
papers.authors: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI

papers.abstract

Nous présentons DragView, un cadre interactif et novateur pour générer de nouvelles vues de scènes inédites. DragView initialise la nouvelle vue à partir d'une seule image source, et le rendu est soutenu par un ensemble épars d'images multi-vues non positionnées, le tout exécuté de manière fluide en une seule passe avant. Notre approche commence par l'utilisateur faisant glisser une vue source à travers un système de coordonnées relatives locales. Les caractéristiques alignées sur les pixels sont obtenues en projetant les points 3D échantillonnés le long du rayon cible sur la vue source. Nous intégrons ensuite une couche de modulation dépendante de la vue pour gérer efficacement les occlusions lors de la projection. De plus, nous élargissons le mécanisme d'attention épipolaire pour englober tous les pixels sources, facilitant l'agrégation des caractéristiques de points alignés sur les coordonnées initialisées à partir d'autres vues non positionnées. Enfin, nous utilisons un autre transformateur pour décoder les caractéristiques des rayons en intensités de pixels finales. De manière cruciale, notre cadre ne repose ni sur des modèles préalables 2D ni sur l'estimation explicite des poses de caméra. Lors des tests, DragView démontre sa capacité à généraliser à de nouvelles scènes non vues pendant l'entraînement, en utilisant uniquement des images de support non positionnées, permettant ainsi la génération de nouvelles vues photo-réalistes caractérisées par des trajectoires de caméra flexibles. Dans nos expériences, nous effectuons une comparaison approfondie des performances de DragView avec les réseaux récents de représentation de scènes fonctionnant dans des conditions sans pose, ainsi qu'avec des NeRFs généralisables soumis à des poses de caméra de test bruitées. DragView démontre systématiquement sa supériorité en termes de qualité de synthèse de vue, tout en étant plus convivial. Page du projet : https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.
PDF81December 15, 2024