Переосмысление сегментации радиационных полей в трехмерном пространстве с открытым словарем
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
August 14, 2024
Авторы: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI
Аннотация
Понимание семантики трехмерной сцены является фундаментальной проблемой для различных сценариев, таких как инкорпорированные агенты. В то время как NeRF и 3DGS отличаются в синтезе нового вида, предыдущие методы понимания их семантики ограничивались неполным трехмерным пониманием: их результаты сегментации представляют собой двумерные маски, и их надзор закреплен за двумерными пикселями. В данной статье пересматривается набор проблем для достижения лучшего трехмерного понимания сцены, моделированной NeRF и 3DGS, следуя следующим пунктам. 1) Мы напрямую надзираем трехмерные точки для обучения языкового встраивания. Это достигает передовой точности без использования многоуровневых языковых встраиваний. 2) Мы переносим предварительно обученное языковое поле на 3DGS, достигая первой скорости реального времени рендеринга без ущерба времени обучения или точности. 3) Мы вводим протокол трехмерного запроса и оценки для оценки восстановленной геометрии и семантики вместе. Код, контрольные точки и аннотации будут доступны онлайн. Страница проекта: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for
various scenarios such as embodied agents. While NeRFs and 3DGS excel at
novel-view synthesis, previous methods for understanding their semantics have
been limited to incomplete 3D understanding: their segmentation results are 2D
masks and their supervision is anchored at 2D pixels. This paper revisits the
problem set to pursue a better 3D understanding of a scene modeled by NeRFs and
3DGS as follows. 1) We directly supervise the 3D points to train the language
embedding field. It achieves state-of-the-art accuracy without relying on
multi-scale language embeddings. 2) We transfer the pre-trained language field
to 3DGS, achieving the first real-time rendering speed without sacrificing
training time or accuracy. 3) We introduce a 3D querying and evaluation
protocol for assessing the reconstructed geometry and semantics together. Code,
checkpoints, and annotations will be available online. Project page:
https://hyunji12.github.io/Open3DRFSummary
AI-Generated Summary