ChatPaper.aiChatPaper

Heroverdenking van open-vocabulariumsegmentatie van stralingsvelden in 3D-ruimte

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

August 14, 2024
Auteurs: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI

Samenvatting

Het begrijpen van de 3D-semantiek van een scène is een fundamenteel probleem voor verschillende scenario's, zoals embodied agents. Hoewel NeRFs en 3DGS uitblinken in novel-view synthesis, waren eerdere methoden voor het begrijpen van hun semantiek beperkt tot een onvolledig 3D-begrip: hun segmentatieresultaten zijn 2D-maskers en hun supervisie is verankerd op 2D-pixels. Dit artikel herziet het probleem om een beter 3D-begrip na te streven van een scène gemodelleerd door NeRFs en 3DGS, als volgt. 1) We begeleiden de 3D-punten direct om het taalembeddingveld te trainen. Het bereikt state-of-the-art nauwkeurigheid zonder te vertrouwen op multi-schaal taalembeddings. 2) We transfereren het vooraf getrainde taalveld naar 3DGS, waardoor de eerste real-time renderingsnelheid wordt bereikt zonder in te leveren op trainingsduur of nauwkeurigheid. 3) We introduceren een 3D-query- en evaluatieprotocol voor het gezamenlijk beoordelen van de gereconstrueerde geometrie en semantiek. Code, checkpoints en annotaties zullen online beschikbaar zijn. Projectpagina: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF
PDF72November 28, 2024