Ricostruzione Neurale Decompositiva di Scene con Prior Generativo a Diffusione
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
Autori: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
Abstract
La ricostruzione scomponibile di scene 3D, con forme complete e texture dettagliate di tutti gli oggetti presenti, è intrigante per applicazioni downstream ma rimane impegnativa, specialmente quando si utilizzano viste sparse come input. Approcci recenti incorporano regolarizzazioni semantiche o geometriche per affrontare questo problema, ma subiscono un significativo degrado nelle aree sottoconvincolate e non riescono a recuperare le regioni occluse. Sosteniamo che la chiave per risolvere questo problema risieda nel fornire informazioni mancanti per queste aree. A tal fine, proponiamo DP-Recon, che utilizza prior di diffusione sotto forma di Score Distillation Sampling (SDS) per ottimizzare la rappresentazione neurale di ciascun oggetto individuale sotto nuove viste. Questo fornisce informazioni aggiuntive per le aree sottoconvincolate, ma l'incorporazione diretta del prior di diffusione solleva potenziali conflitti tra la ricostruzione e la guida generativa. Pertanto, introduciamo ulteriormente un approccio guidato dalla visibilità per regolare dinamicamente i pesi della perdita SDS per pixel. Insieme, questi componenti migliorano sia il recupero della geometria che dell'aspetto, rimanendo fedeli alle immagini di input. Esperimenti estesi su Replica e ScanNet++ dimostrano che il nostro metodo supera significativamente i metodi SOTA. In particolare, ottiene una migliore ricostruzione degli oggetti con 10 viste rispetto ai baseline con 100 viste. Il nostro metodo consente un'edizione basata su testo senza soluzione di continuità per la geometria e l'aspetto attraverso l'ottimizzazione SDS e produce mesh di oggetti scomposti con mappe UV dettagliate che supportano l'edizione di effetti visivi (VFX) fotorealistici. La pagina del progetto è disponibile all'indirizzo https://dp-recon.github.io/.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.