ChatPaper.aiChatPaper

Drag View: Síntesis de Vistas Novedosas Generalizable con Imágenes No Posicionadas

Drag View: Generalizable Novel View Synthesis with Unposed Imagery

October 5, 2023
Autores: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI

Resumen

Presentamos DragView, un marco novedoso e interactivo para generar vistas novedosas de escenas no vistas. DragView inicializa la nueva vista a partir de una única imagen fuente, y la renderización se apoya en un conjunto disperso de imágenes multivista sin pose, todo ejecutado de manera fluida en un único paso de avance. Nuestro enfoque comienza con los usuarios arrastrando una vista fuente a través de un sistema de coordenadas relativas local. Las características alineadas con píxeles se obtienen proyectando los puntos 3D muestreados a lo largo del rayo objetivo sobre la vista fuente. Luego, incorporamos una capa de modulación dependiente de la vista para manejar eficazmente las oclusiones durante la proyección. Además, ampliamos el mecanismo de atención epipolar para abarcar todos los píxeles fuente, facilitando la agregación de características de puntos alineados con coordenadas inicializadas desde otras vistas sin pose. Finalmente, empleamos otro transformador para decodificar las características del rayo en intensidades de píxeles finales. Es crucial destacar que nuestro marco no depende de modelos previos 2D ni de la estimación explícita de poses de cámara. Durante las pruebas, DragView demuestra la capacidad de generalizar a nuevas escenas no vistas durante el entrenamiento, utilizando únicamente imágenes de soporte sin pose, lo que permite la generación de nuevas vistas fotorrealistas caracterizadas por trayectorias de cámara flexibles. En nuestros experimentos, realizamos una comparación exhaustiva del rendimiento de DragView con redes recientes de representación de escenas que operan en condiciones libres de pose, así como con NeRFs generalizables sujetos a poses de cámara ruidosas durante las pruebas. DragView demuestra consistentemente su superior rendimiento en la calidad de síntesis de vistas, además de ser más amigable para el usuario. Página del proyecto: https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.
PDF81December 15, 2024