Reconstrução Neural Decomposicional de Cenas com Prior Generativo de Difusão
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
Autores: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
Resumo
A reconstrução decomposicional de cenas 3D, com formas completas e texturas detalhadas de todos os objetos presentes, é intrigante para aplicações subsequentes, mas permanece desafiadora, especialmente com vistas esparsas como entrada. Abordagens recentes incorporam regularização semântica ou geométrica para lidar com esse problema, mas sofrem degradação significativa em áreas subrestritas e falham em recuperar regiões ocluídas. Argumentamos que a chave para resolver esse problema está em suplementar as informações ausentes nessas áreas. Para isso, propomos o DP-Recon, que emprega priors de difusão na forma de Amostragem por Destilação de Pontuação (SDS) para otimizar a representação neural de cada objeto individual sob novas vistas. Isso fornece informações adicionais para as áreas subrestritas, mas a incorporação direta do prior de difusão levanta potenciais conflitos entre a reconstrução e a orientação generativa. Portanto, introduzimos ainda uma abordagem guiada por visibilidade para ajustar dinamicamente os pesos da perda SDS por pixel. Juntos, esses componentes aprimoram tanto a recuperação da geometria quanto da aparência, mantendo-se fiéis às imagens de entrada. Experimentos extensivos em Replica e ScanNet++ demonstram que nosso método supera significativamente os métodos SOTA. Notavelmente, ele alcança uma melhor reconstrução de objetos com 10 vistas do que as linhas de base com 100 vistas. Nosso método permite edição baseada em texto para geometria e aparência através da otimização SDS e produz malhas de objetos decompostas com mapas UV detalhados que suportam edição de efeitos visuais (VFX) fotorrealistas. A página do projeto está disponível em https://dp-recon.github.io/.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.Summary
AI-Generated Summary