Reconstruction décompositionnelle de scènes neuronales avec un a priori de diffusion générative
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
Auteurs: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
Résumé
La reconstruction décompositionnelle de scènes 3D, avec des formes complètes et des textures détaillées pour tous les objets, est fascinante pour les applications en aval mais reste un défi, en particulier avec des vues éparses en entrée. Les approches récentes intègrent une régularisation sémantique ou géométrique pour résoudre ce problème, mais elles subissent une dégradation significative dans les zones sous-contraintes et échouent à reconstruire les régions occluses. Nous soutenons que la clé pour résoudre ce problème réside dans la fourniture d'informations manquantes pour ces zones. À cette fin, nous proposons DP-Recon, qui utilise des a priori de diffusion sous la forme de Score Distillation Sampling (SDS) pour optimiser la représentation neuronale de chaque objet individuel sous de nouvelles vues. Cela fournit des informations supplémentaires pour les zones sous-contraintes, mais l'intégration directe de l'a priori de diffusion soulève des conflits potentiels entre la reconstruction et le guidage génératif. Par conséquent, nous introduisons en outre une approche guidée par la visibilité pour ajuster dynamiquement les poids de la perte SDS par pixel. Ensemble, ces composants améliorent à la fois la récupération de la géométrie et de l'apparence tout en restant fidèles aux images d'entrée. Des expériences approfondies sur Replica et ScanNet++ démontrent que notre méthode surpasse significativement les méthodes de l'état de l'art (SOTA). Notamment, elle obtient une meilleure reconstruction d'objets avec 10 vues que les méthodes de référence avec 100 vues. Notre méthode permet un édition fluide basée sur le texte pour la géométrie et l'apparence grâce à l'optimisation SDS et produit des maillages d'objets décomposés avec des cartes UV détaillées qui supportent l'édition d'effets visuels (VFX) photoréalistes. La page du projet est disponible à l'adresse https://dp-recon.github.io/.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.Summary
AI-Generated Summary