ChatPaper.aiChatPaper

Neubewertung der offenen Vokabelsegmentierung von Strahlungsfeldern im 3D-Raum

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

August 14, 2024
Autoren: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI

Zusammenfassung

Das Verständnis der 3D-Semantik einer Szene ist ein grundlegendes Problem für verschiedene Szenarien wie verkörperte Agenten. Während NeRFs und 3DGS bei der Synthese von neuartigen Ansichten herausragend sind, waren frühere Methoden zur Erfassung ihrer Semantik auf eine unvollständige 3D-Verständnis beschränkt: Ihre Segmentierungsergebnisse sind 2D-Masken und ihre Überwachung ist an 2D-Pixel verankert. Diese Arbeit überdenkt das Problem, um ein besseres 3D-Verständnis einer Szene zu verfolgen, die von NeRFs und 3DGS modelliert wird, wie folgt. 1) Wir überwachen die 3D-Punkte direkt, um das Sprach-Einbettungsfeld zu trainieren. Es erreicht eine Genauigkeit auf dem neuesten Stand, ohne auf mehrskalige Sprach-Einbettungen angewiesen zu sein. 2) Wir übertragen das vorab trainierte Sprachfeld auf 3DGS und erreichen die erste Echtzeit-Rendering-Geschwindigkeit, ohne Trainingszeit oder Genauigkeit zu opfern. 3) Wir führen ein 3D-Abfrage- und Bewertungsprotokoll ein, um die rekonstruierte Geometrie und Semantik gemeinsam zu bewerten. Code, Checkpoints und Annotationen werden online verfügbar sein. Projektseite: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF

Summary

AI-Generated Summary

PDF72November 28, 2024