ChatPaper.aiChatPaper

ReconX: Reconstrucción de cualquier escena a partir de vistas escasas con un modelo de difusión de video

ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

August 29, 2024
Autores: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI

Resumen

Los avances en la reconstrucción de escenas 3D han transformado imágenes 2D del mundo real en modelos 3D, produciendo resultados realistas a partir de cientos de fotografías de entrada. A pesar del gran éxito en escenarios de reconstrucción con vistas densas, renderizar una escena detallada a partir de un número insuficiente de vistas capturadas sigue siendo un problema de optimización mal planteado, que a menudo resulta en artefactos y distorsiones en áreas no observadas. En este artículo, proponemos ReconX, un nuevo paradigma de reconstrucción de escenas 3D que reformula el desafío ambiguo de la reconstrucción como una tarea de generación temporal. La idea clave es aprovechar el fuerte conocimiento generativo previo de los modelos de difusión de video preentrenados para la reconstrucción con vistas escasas. Sin embargo, la consistencia 3D de las vistas tiende a no preservarse con precisión en los fotogramas de video generados directamente por modelos preentrenados. Para abordar esto, dado un número limitado de vistas de entrada, el ReconX propuesto primero construye una nube de puntos global y la codifica en un espacio contextual como condición de estructura 3D. Guiado por esta condición, el modelo de difusión de video sintetiza fotogramas que preservan los detalles y exhiben un alto grado de consistencia 3D, asegurando la coherencia de la escena desde diversas perspectivas. Finalmente, recuperamos la escena 3D a partir del video generado mediante un esquema de optimización basado en 3D Gaussian Splatting con manejo de confianza. Experimentos exhaustivos en diversos conjuntos de datos del mundo real muestran la superioridad de nuestro ReconX sobre los métodos más avanzados en términos de calidad y generalización.
English
Advancements in 3D scene reconstruction have transformed 2D images from the real world into 3D models, producing realistic 3D results from hundreds of input photos. Despite great success in dense-view reconstruction scenarios, rendering a detailed scene from insufficient captured views is still an ill-posed optimization problem, often resulting in artifacts and distortions in unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction paradigm that reframes the ambiguous reconstruction challenge as a temporal generation task. The key insight is to unleash the strong generative prior of large pre-trained video diffusion models for sparse-view reconstruction. However, 3D view consistency struggles to be accurately preserved in directly generated video frames from pre-trained models. To address this, given limited input views, the proposed ReconX first constructs a global point cloud and encodes it into a contextual space as the 3D structure condition. Guided by the condition, the video diffusion model then synthesizes video frames that are both detail-preserved and exhibit a high degree of 3D consistency, ensuring the coherence of the scene from various perspectives. Finally, we recover the 3D scene from the generated video through a confidence-aware 3D Gaussian Splatting optimization scheme. Extensive experiments on various real-world datasets show the superiority of our ReconX over state-of-the-art methods in terms of quality and generalizability.
PDF322November 14, 2024