Reconsiderando la Segmentación de Campos de Radiación en Espacio 3D con Vocabulario Abierto
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
August 14, 2024
Autores: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI
Resumen
Entender la semántica 3D de una escena es un problema fundamental para varios escenarios como agentes incorporados. Si bien NeRFs y 3DGS destacan en la síntesis de vistas novedosas, los métodos anteriores para comprender su semántica se han limitado a una comprensión 3D incompleta: sus resultados de segmentación son máscaras 2D y su supervisión está anclada en píxeles 2D. Este artículo vuelve a abordar el conjunto de problemas para perseguir una mejor comprensión 3D de una escena modelada por NeRFs y 3DGS de la siguiente manera. 1) Supervisamos directamente los puntos 3D para entrenar el campo de incrustación de lenguaje. Logra una precisión de vanguardia sin depender de incrustaciones de lenguaje a múltiples escalas. 2) Transferimos el campo de lenguaje pre-entrenado a 3DGS, logrando la primera velocidad de renderizado en tiempo real sin sacrificar tiempo de entrenamiento o precisión. 3) Introducimos un protocolo de consulta y evaluación 3D para evaluar la geometría y semántica reconstruidas juntas. El código, los puntos de control y las anotaciones estarán disponibles en línea. Página del proyecto: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for
various scenarios such as embodied agents. While NeRFs and 3DGS excel at
novel-view synthesis, previous methods for understanding their semantics have
been limited to incomplete 3D understanding: their segmentation results are 2D
masks and their supervision is anchored at 2D pixels. This paper revisits the
problem set to pursue a better 3D understanding of a scene modeled by NeRFs and
3DGS as follows. 1) We directly supervise the 3D points to train the language
embedding field. It achieves state-of-the-art accuracy without relying on
multi-scale language embeddings. 2) We transfer the pre-trained language field
to 3DGS, achieving the first real-time rendering speed without sacrificing
training time or accuracy. 3) We introduce a 3D querying and evaluation
protocol for assessing the reconstructed geometry and semantics together. Code,
checkpoints, and annotations will be available online. Project page:
https://hyunji12.github.io/Open3DRFSummary
AI-Generated Summary