Repensando a Segmentação de Campo de Radiância em Espaço 3D com Vocabulário Aberto
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
August 14, 2024
Autores: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI
Resumo
Compreender a semântica 3D de uma cena é um problema fundamental para vários cenários, como agentes incorporados. Enquanto NeRFs e 3DGS se destacam na síntese de visualizações inéditas, os métodos anteriores para entender sua semântica têm sido limitados a uma compreensão 3D incompleta: seus resultados de segmentação são máscaras 2D e sua supervisão está ancorada em pixels 2D. Este artigo revisita o conjunto de problemas para buscar uma melhor compreensão 3D de uma cena modelada por NeRFs e 3DGS da seguinte forma. 1) Supervisionamos diretamente os pontos 3D para treinar o campo de incorporação de linguagem. Isso alcança uma precisão de ponta sem depender de incorporações de linguagem em múltiplas escalas. 2) Transferimos o campo de linguagem pré-treinado para 3DGS, alcançando a primeira velocidade de renderização em tempo real sem sacrificar o tempo de treinamento ou a precisão. 3) Introduzimos um protocolo de consulta e avaliação 3D para avaliar a geometria e a semântica reconstruídas juntas. Código, pontos de verificação e anotações estarão disponíveis online. Página do projeto: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for
various scenarios such as embodied agents. While NeRFs and 3DGS excel at
novel-view synthesis, previous methods for understanding their semantics have
been limited to incomplete 3D understanding: their segmentation results are 2D
masks and their supervision is anchored at 2D pixels. This paper revisits the
problem set to pursue a better 3D understanding of a scene modeled by NeRFs and
3DGS as follows. 1) We directly supervise the 3D points to train the language
embedding field. It achieves state-of-the-art accuracy without relying on
multi-scale language embeddings. 2) We transfer the pre-trained language field
to 3DGS, achieving the first real-time rendering speed without sacrificing
training time or accuracy. 3) We introduce a 3D querying and evaluation
protocol for assessing the reconstructed geometry and semantics together. Code,
checkpoints, and annotations will be available online. Project page:
https://hyunji12.github.io/Open3DRFSummary
AI-Generated Summary