생성적 확산 사전을 활용한 분해적 신경망 장면 재구성
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
저자: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
초록
완전한 형태와 모든 객체의 세밀한 텍스처를 포함한 3D 장면의 분해적 재구성은 다운스트림 애플리케이션에 있어 매우 매력적이지만, 특히 희소한 뷰를 입력으로 사용할 때 여전히 어려운 과제로 남아 있습니다. 최근 접근법들은 이 문제를 해결하기 위해 의미론적 또는 기하학적 정규화를 도입했지만, 제약이 부족한 영역에서 심각한 성능 저하를 겪으며 가려진 영역을 복구하지 못합니다. 우리는 이 문제를 해결하기 위한 핵심이 이러한 영역에 대한 누락된 정보를 보완하는 데 있다고 주장합니다. 이를 위해 우리는 DP-Recon을 제안하며, 이는 Score Distillation Sampling (SDS) 형태의 확산 사전 지식을 활용하여 새로운 뷰에서 각 개별 객체의 신경망 표현을 최적화합니다. 이는 제약이 부족한 영역에 추가 정보를 제공하지만, 확산 사전 지식을 직접 통합하면 재구성과 생성적 지도 간의 잠재적 충돌이 발생할 수 있습니다. 따라서 우리는 픽셀 단위의 SDS 손실 가중치를 동적으로 조정하기 위한 가시성 기반 접근법을 추가로 도입합니다. 이러한 구성 요소들은 입력 이미지에 충실하면서도 기하학적 구조와 외관 복구를 모두 향상시킵니다. Replica와 ScanNet++에 걸친 광범위한 실험을 통해 우리의 방법이 SOTA 방법들을 크게 능가함을 입증했습니다. 특히, 10개의 뷰에서의 객체 재구성이 100개의 뷰를 사용한 베이스라인보다 더 나은 성능을 보였습니다. 우리의 방법은 SDS 최적화를 통해 기하학적 구조와 외관에 대한 원활한 텍스트 기반 편집을 가능하게 하며, 포토리얼리스틱 비주얼 효과(VFX) 편집을 지원하는 상세한 UV 맵을 포함한 분해된 객체 메시를 생성합니다. 프로젝트 페이지는 https://dp-recon.github.io/에서 확인할 수 있습니다.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.Summary
AI-Generated Summary