Reconstrucción Neural Descomposicional de Escenas con Prior Generativo de Difusión
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
Autores: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
Resumen
La reconstrucción descompuesta de escenas 3D, con formas completas y texturas detalladas de todos los objetos presentes, es intrigante para aplicaciones posteriores, pero sigue siendo un desafío, especialmente con vistas escasas como entrada. Enfoques recientes incorporan regularización semántica o geométrica para abordar este problema, pero sufren una degradación significativa en áreas subrestrictas y no logran recuperar regiones ocluidas. Argumentamos que la clave para resolver este problema radica en complementar la información faltante para estas áreas. Con este fin, proponemos DP-Recon, que emplea priores de difusión en forma de Muestreo de Destilación de Puntajes (SDS, por sus siglas en inglés) para optimizar la representación neuronal de cada objeto individual bajo nuevas vistas. Esto proporciona información adicional para las áreas subrestrictas, pero la incorporación directa del prior de difusión genera posibles conflictos entre la reconstrucción y la guía generativa. Por lo tanto, introducimos además un enfoque guiado por visibilidad para ajustar dinámicamente los pesos de pérdida SDS por píxel. Juntos, estos componentes mejoran tanto la recuperación de la geometría como de la apariencia, manteniéndose fieles a las imágenes de entrada. Experimentos extensivos en Replica y ScanNet++ demuestran que nuestro método supera significativamente a los métodos de última generación (SOTA). Notablemente, logra una mejor reconstrucción de objetos con 10 vistas que los métodos base con 100 vistas. Nuestro método permite una edición basada en texto sin problemas para la geometría y la apariencia a través de la optimización SDS y produce mallas de objetos descompuestas con mapas UV detallados que admiten la edición de efectos visuales (VFX) fotorrealistas. La página del proyecto está disponible en https://dp-recon.github.io/.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.Summary
AI-Generated Summary