ChatPaper.aiChatPaper

Переосмысление сегментации радиационных полей в трехмерном пространстве с открытым словарем

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

August 14, 2024
Авторы: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
cs.AI

Аннотация

Понимание семантики трехмерной сцены является фундаментальной проблемой для различных сценариев, таких как инкорпорированные агенты. В то время как NeRF и 3DGS отличаются в синтезе нового вида, предыдущие методы понимания их семантики ограничивались неполным трехмерным пониманием: их результаты сегментации представляют собой двумерные маски, и их надзор закреплен за двумерными пикселями. В данной статье пересматривается набор проблем для достижения лучшего трехмерного понимания сцены, моделированной NeRF и 3DGS, следуя следующим пунктам. 1) Мы напрямую надзираем трехмерные точки для обучения языкового встраивания. Это достигает передовой точности без использования многоуровневых языковых встраиваний. 2) Мы переносим предварительно обученное языковое поле на 3DGS, достигая первой скорости реального времени рендеринга без ущерба времени обучения или точности. 3) Мы вводим протокол трехмерного запроса и оценки для оценки восстановленной геометрии и семантики вместе. Код, контрольные точки и аннотации будут доступны онлайн. Страница проекта: https://hyunji12.github.io/Open3DRF
English
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF

Summary

AI-Generated Summary

PDF72November 28, 2024