Neubewertung der offenen Vokabelsegmentierung von Strahlungsfeldern im 3D-Raum
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
August 14, 2024
Autoren: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI
Zusammenfassung
Das Verständnis der 3D-Semantik einer Szene ist ein grundlegendes Problem für verschiedene Szenarien wie verkörperte Agenten. Während NeRFs und 3DGS bei der Synthese von neuartigen Ansichten herausragend sind, waren frühere Methoden zur Erfassung ihrer Semantik auf eine unvollständige 3D-Verständnis beschränkt: Ihre Segmentierungsergebnisse sind 2D-Masken und ihre Überwachung ist an 2D-Pixel verankert. Diese Arbeit überdenkt das Problem, um ein besseres 3D-Verständnis einer Szene zu verfolgen, die von NeRFs und 3DGS modelliert wird, wie folgt. 1) Wir überwachen die 3D-Punkte direkt, um das Sprach-Einbettungsfeld zu trainieren. Es erreicht eine Genauigkeit auf dem neuesten Stand, ohne auf mehrskalige Sprach-Einbettungen angewiesen zu sein. 2) Wir übertragen das vorab trainierte Sprachfeld auf 3DGS und erreichen die erste Echtzeit-Rendering-Geschwindigkeit, ohne Trainingszeit oder Genauigkeit zu opfern. 3) Wir führen ein 3D-Abfrage- und Bewertungsprotokoll ein, um die rekonstruierte Geometrie und Semantik gemeinsam zu bewerten. Code, Checkpoints und Annotationen werden online verfügbar sein. Projektseite: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for
various scenarios such as embodied agents. While NeRFs and 3DGS excel at
novel-view synthesis, previous methods for understanding their semantics have
been limited to incomplete 3D understanding: their segmentation results are 2D
masks and their supervision is anchored at 2D pixels. This paper revisits the
problem set to pursue a better 3D understanding of a scene modeled by NeRFs and
3DGS as follows. 1) We directly supervise the 3D points to train the language
embedding field. It achieves state-of-the-art accuracy without relying on
multi-scale language embeddings. 2) We transfer the pre-trained language field
to 3DGS, achieving the first real-time rendering speed without sacrificing
training time or accuracy. 3) We introduce a 3D querying and evaluation
protocol for assessing the reconstructed geometry and semantics together. Code,
checkpoints, and annotations will be available online. Project page:
https://hyunji12.github.io/Open3DRFSummary
AI-Generated Summary