ChatPaper.aiChatPaper

Ripensare la segmentazione open-vocabulary dei campi di radianza nello spazio 3D

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

August 14, 2024
Autori: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI

Abstract

Comprendere la semantica 3D di una scena è un problema fondamentale per vari scenari, come gli agenti incarnati. Mentre i NeRF e il 3DGS eccellono nella sintesi di nuove viste, i metodi precedenti per comprenderne la semantica sono stati limitati a una comprensione 3D incompleta: i loro risultati di segmentazione sono maschere 2D e la loro supervisione è ancorata ai pixel 2D. Questo articolo riprende il problema con l'obiettivo di perseguire una migliore comprensione 3D di una scena modellata da NeRF e 3DGS come segue. 1) Supervisioniamo direttamente i punti 3D per addestrare il campo di incorporamento linguistico. Ciò raggiunge un'accuratezza all'avanguardia senza fare affidamento su incorporamenti linguistici multi-scala. 2) Trasferiamo il campo linguistico pre-addestrato al 3DGS, ottenendo la prima velocità di rendering in tempo reale senza sacrificare il tempo di addestramento o l'accuratezza. 3) Introduciamo un protocollo di interrogazione e valutazione 3D per valutare insieme la geometria e la semantica ricostruite. Codice, checkpoint e annotazioni saranno disponibili online. Pagina del progetto: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF
PDF72November 28, 2024