ChatPaper.aiChatPaper

LangSplat: 3D Языковое Гауссово Размытие

LangSplat: 3D Language Gaussian Splatting

December 26, 2023
Авторы: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
cs.AI

Аннотация

Человек живет в трехмерном мире и обычно использует естественный язык для взаимодействия с трехмерной сценой. Моделирование трехмерного языкового поля для поддержки открытых языковых запросов в 3D-пространстве в последнее время привлекает все больше внимания. В данной статье представлен LangSplat, который создает трехмерное языковое поле, позволяющее выполнять точные и эффективные запросы с открытым словарем в трехмерных пространствах. В отличие от существующих методов, которые связывают языковые эмбеддинги CLIP с моделью NeRF, LangSplat продвигает эту область, используя набор трехмерных гауссовских распределений, каждое из которых кодирует языковые признаки, извлеченные из CLIP, для представления языкового поля. Применяя метод рендеринга языковых признаков на основе тайлов, мы избегаем дорогостоящего процесса рендеринга, присущего NeRF. Вместо прямого обучения эмбеддингам CLIP, LangSplat сначала обучает сценозависимый языковой автокодировщик, а затем изучает языковые признаки в сценозависимом латентном пространстве, тем самым снижая значительные требования к памяти, накладываемые явным моделированием. Существующие методы сталкиваются с неточными и размытыми трехмерными языковыми полями, которые не могут четко определить границы между объектами. Мы углубляемся в эту проблему и предлагаем изучать иерархическую семантику с помощью SAM, устраняя необходимость в масштабных запросах к языковому полю на различных уровнях и регуляризации признаков DINO. Многочисленные эксперименты по локализации объектов и семантической сегментации с открытым словарем в 3D-пространстве демонстрируют, что LangSplat значительно превосходит предыдущий передовой метод LERF с большим отрывом. Примечательно, что LangSplat чрезвычайно эффективен, достигая ускорения в {\speed} раз по сравнению с LERF при разрешении 1440 на 1080. Мы настоятельно рекомендуем читателям ознакомиться с нашими видеорезультатами на сайте https://langsplat.github.io.
English
Human lives in a 3D world and commonly uses natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experiments on open-vocabulary 3D object localization and semantic segmentation demonstrate that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a {\speed} times speedup compared to LERF at the resolution of 1440 times 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io
PDF162December 15, 2024