ChatPaper.aiChatPaper

生成拡散モデルを事前知識とした分解的ニューラルシーン再構成

Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

March 19, 2025
著者: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI

要旨

3Dシーンの分解的再構築、特に全てのオブジェクトの完全な形状と詳細なテクスチャを伴うものは、下流のアプリケーションにとって興味深いものの、特に疎なビューを入力とする場合、依然として課題が残っています。最近のアプローチでは、この問題に対処するために意味的または幾何学的な正則化が取り入れられていますが、制約の少ない領域での著しい劣化や、隠蔽された領域の回復に失敗しています。この問題を解決する鍵は、これらの領域に欠けている情報を補完することにあると私たちは主張します。この目的のために、私たちはDP-Reconを提案します。これは、新しいビュー下での各個別オブジェクトのニューラル表現を最適化するために、Score Distillation Sampling(SDS)の形で拡散事前分布を採用します。これにより、制約の少ない領域に対する追加情報が提供されますが、拡散事前分布を直接組み込むことは、再構築と生成的ガイダンスの間の潜在的な衝突を引き起こします。そのため、私たちはさらに、可視性に基づいたアプローチを導入し、ピクセルごとのSDS損失の重みを動的に調整します。これらのコンポーネントを組み合わせることで、入力画像に忠実でありながら、幾何学と外観の回復を両方とも強化します。ReplicaとScanNet++にわたる広範な実験により、私たちの方法がSOTAメソッドを大幅に上回ることが示されています。特に、10ビュー下でのオブジェクト再構築が、ベースラインの100ビュー下での再構築よりも優れています。私たちの方法は、SDS最適化を通じて幾何学と外観のシームレスなテキストベース編集を可能にし、フォトリアルな視覚効果(VFX)編集をサポートする詳細なUVマップを伴う分解されたオブジェクトメッシュを生成します。プロジェクトページはhttps://dp-recon.github.io/で利用可能です。
English
Decompositional reconstruction of 3D scenes, with complete shapes and detailed texture of all objects within, is intriguing for downstream applications but remains challenging, particularly with sparse views as input. Recent approaches incorporate semantic or geometric regularization to address this issue, but they suffer significant degradation in underconstrained areas and fail to recover occluded regions. We argue that the key to solving this problem lies in supplementing missing information for these areas. To this end, we propose DP-Recon, which employs diffusion priors in the form of Score Distillation Sampling (SDS) to optimize the neural representation of each individual object under novel views. This provides additional information for the underconstrained areas, but directly incorporating diffusion prior raises potential conflicts between the reconstruction and generative guidance. Therefore, we further introduce a visibility-guided approach to dynamically adjust the per-pixel SDS loss weights. Together these components enhance both geometry and appearance recovery while remaining faithful to input images. Extensive experiments across Replica and ScanNet++ demonstrate that our method significantly outperforms SOTA methods. Notably, it achieves better object reconstruction under 10 views than the baselines under 100 views. Our method enables seamless text-based editing for geometry and appearance through SDS optimization and produces decomposed object meshes with detailed UV maps that support photorealistic Visual effects (VFX) editing. The project page is available at https://dp-recon.github.io/.

Summary

AI-Generated Summary

PDF92March 20, 2025