Decompositionele Neurale Scène-reconstructie met Generatief Diffusie Prior
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
Auteurs: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
Samenvatting
Decompositionele reconstructie van 3D-scènes, met volledige vormen en gedetailleerde textuur van alle objecten daarin, is intrigerend voor downstream-toepassingen maar blijft uitdagend, vooral met schaarse views als invoer. Recente benaderingen integreren semantische of geometrische regularisatie om dit probleem aan te pakken, maar ze lijden aan significante degradatie in ondergeconstrueerde gebieden en slagen er niet in om verborgen regio's te herstellen. Wij stellen dat de sleutel tot het oplossen van dit probleem ligt in het aanvullen van ontbrekende informatie voor deze gebieden. Hiertoe stellen we DP-Recon voor, dat diffusiepriors gebruikt in de vorm van Score Distillation Sampling (SDS) om de neurale representatie van elk individueel object onder nieuwe views te optimaliseren. Dit biedt aanvullende informatie voor de ondergeconstrueerde gebieden, maar het direct incorporeren van diffusieprior leidt tot potentiële conflicten tussen de reconstructie en de generatieve begeleiding. Daarom introduceren we verder een zichtbaarheidsgeleide aanpak om de per-pixel SDS-verliesgewichten dynamisch aan te passen. Samen verbeteren deze componenten zowel de geometrie- als de uiterlijkherstel, terwijl ze trouw blijven aan de invoerbeelden. Uitgebreide experimenten op Replica en ScanNet++ tonen aan dat onze methode de state-of-the-art methoden significant overtreft. Opmerkelijk is dat het betere objectreconstructie bereikt onder 10 views dan de baseline-methoden onder 100 views. Onze methode maakt naadloze tekstgebaseerde bewerking van geometrie en uiterlijk mogelijk via SDS-optimalisatie en produceert gedecentraliseerde objectmeshes met gedetailleerde UV-maps die fotorealistische Visual Effects (VFX)-bewerking ondersteunen. De projectpagina is beschikbaar op https://dp-recon.github.io/.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.Summary
AI-Generated Summary