ChatPaper.aiChatPaper

Reconsiderando la Segmentación de Campos de Radiación en Espacio 3D con Vocabulario Abierto

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

August 14, 2024
Autores: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI

Resumen

Entender la semántica 3D de una escena es un problema fundamental para varios escenarios como agentes incorporados. Si bien NeRFs y 3DGS destacan en la síntesis de vistas novedosas, los métodos anteriores para comprender su semántica se han limitado a una comprensión 3D incompleta: sus resultados de segmentación son máscaras 2D y su supervisión está anclada en píxeles 2D. Este artículo vuelve a abordar el conjunto de problemas para perseguir una mejor comprensión 3D de una escena modelada por NeRFs y 3DGS de la siguiente manera. 1) Supervisamos directamente los puntos 3D para entrenar el campo de incrustación de lenguaje. Logra una precisión de vanguardia sin depender de incrustaciones de lenguaje a múltiples escalas. 2) Transferimos el campo de lenguaje pre-entrenado a 3DGS, logrando la primera velocidad de renderizado en tiempo real sin sacrificar tiempo de entrenamiento o precisión. 3) Introducimos un protocolo de consulta y evaluación 3D para evaluar la geometría y semántica reconstruidas juntas. El código, los puntos de control y las anotaciones estarán disponibles en línea. Página del proyecto: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF

Summary

AI-Generated Summary

PDF72November 28, 2024