3D空間における放射場のオープン語彙セグメンテーションの再考
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
August 14, 2024
著者: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI
要旨
シーンの3Dセマンティクスを理解することは、エンボディドエージェントなどの様々なシナリオにおける基本的な課題です。NeRFや3DGSは新規視点合成において優れた性能を発揮しますが、これまでのセマンティクス理解手法は不完全な3D理解に留まっていました。具体的には、セグメンテーション結果は2Dマスクであり、その教師信号も2Dピクセルに基づいていました。本論文では、NeRFや3DGSによってモデル化されたシーンのより良い3D理解を追求するために、この問題設定を再検討します。1) 3Dポイントを直接教師信号として言語埋め込みフィールドを学習させます。これにより、マルチスケール言語埋め込みに依存することなく、最先端の精度を達成します。2) 事前学習済みの言語フィールドを3DGSに転移し、トレーニング時間や精度を犠牲にすることなく、初めてリアルタイムレンダリング速度を実現します。3) 再構築されたジオメトリとセマンティクスを同時に評価するための3Dクエリと評価プロトコルを導入します。コード、チェックポイント、アノテーションはオンラインで公開されます。プロジェクトページ: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for
various scenarios such as embodied agents. While NeRFs and 3DGS excel at
novel-view synthesis, previous methods for understanding their semantics have
been limited to incomplete 3D understanding: their segmentation results are 2D
masks and their supervision is anchored at 2D pixels. This paper revisits the
problem set to pursue a better 3D understanding of a scene modeled by NeRFs and
3DGS as follows. 1) We directly supervise the 3D points to train the language
embedding field. It achieves state-of-the-art accuracy without relying on
multi-scale language embeddings. 2) We transfer the pre-trained language field
to 3DGS, achieving the first real-time rendering speed without sacrificing
training time or accuracy. 3) We introduce a 3D querying and evaluation
protocol for assessing the reconstructed geometry and semantics together. Code,
checkpoints, and annotations will be available online. Project page:
https://hyunji12.github.io/Open3DRFSummary
AI-Generated Summary