ChatPaper.aiChatPaper

LangSplat: 3D Taal Gaussian Splatting

LangSplat: 3D Language Gaussian Splatting

December 26, 2023
Auteurs: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
cs.AI

Samenvatting

Mensen leven in een 3D-wereld en gebruiken vaak natuurlijke taal om te interageren met een 3D-scène. Het modelleren van een 3D-taalveld om open-einde taalquery’s in 3D te ondersteunen, heeft recentelijk steeds meer aandacht gekregen. Dit artikel introduceert LangSplat, dat een 3D-taalveld construeert dat precieze en efficiënte open-vocabulaire query’s binnen 3D-ruimtes mogelijk maakt. In tegenstelling tot bestaande methoden die CLIP-taal-embeddingen verankeren in een NeRF-model, zet LangSplat de stap voorwaarts door een verzameling van 3D-Gaussiaanse verdelingen te gebruiken, elk met taal-functies gedistilleerd uit CLIP, om het taalveld te representeren. Door een op tegels gebaseerde splatting-techniek te gebruiken voor het renderen van taal-functies, omzeilen we het kostbare renderproces dat inherent is aan NeRF. In plaats van direct CLIP-embeddingen te leren, traint LangSplat eerst een scene-specifieke taal-auto-encoder en leert vervolgens taal-functies in de scene-specifieke latente ruimte, waardoor de aanzienlijke geheugeneisen van expliciete modellering worden verlicht. Bestaande methoden worstelen met onnauwkeurige en vage 3D-taalvelden, die geen duidelijke grenzen tussen objecten kunnen onderscheiden. We verdiepen ons in dit probleem en stellen voor om hiërarchische semantiek te leren met behulp van SAM, waardoor de noodzaak om uitgebreid het taalveld op verschillende schalen te bevragen en de regularisatie van DINO-functies wordt geëlimineerd. Uitgebreide experimenten op het gebied van open-vocabulaire 3D-objectlocalisatie en semantische segmentatie tonen aan dat LangSplat de vorige state-of-the-art methode LERF met een grote marge overtreft. Opmerkelijk is dat LangSplat extreem efficiënt is, met een {\speed}-voudige snelheidsverbetering vergeleken met LERF bij een resolutie van 1440 keer 1080. We raden lezers sterk aan om onze videoresultaten te bekijken op https://langsplat.github.io.
English
Human lives in a 3D world and commonly uses natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experiments on open-vocabulary 3D object localization and semantic segmentation demonstrate that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a {\speed} times speedup compared to LERF at the resolution of 1440 times 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io
PDF162February 8, 2026