NVComposer: Potenciando la síntesis generativa de nuevas vistas con múltiples imágenes dispersas y no posadas.
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
December 4, 2024
Autores: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Resumen
Los avances recientes en modelos generativos han mejorado significativamente la síntesis de vistas novedosas (NVS) a partir de datos de múltiples vistas. Sin embargo, los métodos existentes dependen de procesos externos de alineación de múltiples vistas, como la estimación explícita de poses o la pre-reconstrucción, lo que limita su flexibilidad y accesibilidad, especialmente cuando la alineación es inestable debido a una superposición insuficiente u obstrucciones entre las vistas. En este artículo, proponemos NVComposer, un enfoque novedoso que elimina la necesidad de alineación externa explícita. NVComposer permite que el modelo generativo infiera implícitamente las relaciones espaciales y geométricas entre múltiples vistas condicionales al introducir dos componentes clave: 1) un modelo de difusión de doble flujo de imagen-pose que genera simultáneamente vistas novedosas objetivo y poses de cámara condicionales, y 2) un módulo de alineación de características consciente de la geometría que destila prioridades geométricas de modelos estéreo densos durante el entrenamiento. Experimentos extensos demuestran que NVComposer logra un rendimiento de vanguardia en tareas generativas de NVS de múltiples vistas, eliminando la dependencia de la alineación externa y mejorando así la accesibilidad del modelo. Nuestro enfoque muestra mejoras sustanciales en la calidad de síntesis a medida que aumenta el número de vistas de entrada sin poses, destacando su potencial para sistemas generativos de NVS más flexibles y accesibles.
English
Recent advancements in generative models have significantly improved novel
view synthesis (NVS) from multi-view data. However, existing methods depend on
external multi-view alignment processes, such as explicit pose estimation or
pre-reconstruction, which limits their flexibility and accessibility,
especially when alignment is unstable due to insufficient overlap or occlusions
between views. In this paper, we propose NVComposer, a novel approach that
eliminates the need for explicit external alignment. NVComposer enables the
generative model to implicitly infer spatial and geometric relationships
between multiple conditional views by introducing two key components: 1) an
image-pose dual-stream diffusion model that simultaneously generates target
novel views and condition camera poses, and 2) a geometry-aware feature
alignment module that distills geometric priors from dense stereo models during
training. Extensive experiments demonstrate that NVComposer achieves
state-of-the-art performance in generative multi-view NVS tasks, removing the
reliance on external alignment and thus improving model accessibility. Our
approach shows substantial improvements in synthesis quality as the number of
unposed input views increases, highlighting its potential for more flexible and
accessible generative NVS systems.Summary
AI-Generated Summary