ChatPaper.aiChatPaper

LangSplat: Splatting Gaussiano de Linguagem 3D

LangSplat: 3D Language Gaussian Splatting

December 26, 2023
Autores: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
cs.AI

Resumo

Os seres humanos vivem em um mundo 3D e comumente usam linguagem natural para interagir com uma cena 3D. A modelagem de um campo de linguagem 3D para suportar consultas de linguagem aberta em 3D tem ganhado atenção crescente recentemente. Este artigo apresenta o LangSplat, que constrói um campo de linguagem 3D que permite consultas precisas e eficientes de vocabulário aberto em espaços 3D. Diferente dos métodos existentes que ancoram embeddings de linguagem CLIP em um modelo NeRF, o LangSplat avança o campo utilizando uma coleção de Gaussianas 3D, cada uma codificando características de linguagem extraídas do CLIP, para representar o campo de linguagem. Ao empregar uma técnica de splatting baseada em tiles para renderizar características de linguagem, contornamos o processo de renderização custoso inerente ao NeRF. Em vez de aprender diretamente os embeddings do CLIP, o LangSplat primeiro treina um autoencoder de linguagem por cena e, em seguida, aprende características de linguagem no espaço latente específico da cena, aliviando assim as demandas substanciais de memória impostas pela modelagem explícita. Os métodos existentes lutam com campos de linguagem 3D imprecisos e vagos, que falham em discernir limites claros entre objetos. Investigamos essa questão e propomos aprender semântica hierárquica usando o SAM, eliminando a necessidade de consultar extensivamente o campo de linguagem em várias escalas e a regularização de características DINO. Experimentos extensivos em localização de objetos 3D de vocabulário aberto e segmentação semântica demonstram que o LangSplat supera significativamente o método anterior de última geração, o LERF, por uma grande margem. Notavelmente, o LangSplat é extremamente eficiente, alcançando um aumento de velocidade de {\speed} vezes em comparação ao LERF na resolução de 1440x1080. Recomendamos fortemente que os leitores vejam nossos resultados em vídeo em https://langsplat.github.io.
English
Human lives in a 3D world and commonly uses natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experiments on open-vocabulary 3D object localization and semantic segmentation demonstrate that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a {\speed} times speedup compared to LERF at the resolution of 1440 times 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io
PDF162February 8, 2026