LangSplat: Representación 3D de Lenguaje mediante Splatting Gaussiano
LangSplat: 3D Language Gaussian Splatting
December 26, 2023
Autores: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
cs.AI
Resumen
Los seres humanos viven en un mundo tridimensional y comúnmente utilizan el lenguaje natural para interactuar con una escena 3D. Modelar un campo de lenguaje 3D para soportar consultas de lenguaje abierto en 3D ha ganado creciente atención recientemente. Este artículo presenta LangSplat, que construye un campo de lenguaje 3D que permite consultas de vocabulario abierto precisas y eficientes dentro de espacios 3D. A diferencia de los métodos existentes que anclan los embeddings de lenguaje CLIP en un modelo NeRF, LangSplat avanza el campo al utilizar una colección de Gaussianas 3D, cada una codificando características de lenguaje destiladas de CLIP, para representar el campo de lenguaje. Al emplear una técnica de splatting basada en mosaicos para renderizar las características de lenguaje, evitamos el costoso proceso de renderizado inherente a NeRF. En lugar de aprender directamente los embeddings de CLIP, LangSplat primero entrena un autoencoder de lenguaje por escena y luego aprende características de lenguaje en el espacio latente específico de la escena, aliviando así las demandas sustanciales de memoria impuestas por el modelado explícito. Los métodos existentes luchan con campos de lenguaje 3D imprecisos y vagos, que no logran discernir límites claros entre objetos. Profundizamos en este problema y proponemos aprender semántica jerárquica utilizando SAM, eliminando así la necesidad de consultar extensamente el campo de lenguaje a varias escalas y la regularización de características DINO. Experimentos extensos en localización de objetos 3D de vocabulario abierto y segmentación semántica demuestran que LangSplat supera significativamente al método anterior más avanzado, LERF, por un amplio margen. Notablemente, LangSplat es extremadamente eficiente, logrando una aceleración de {\speed} veces en comparación con LERF a una resolución de 1440 por 1080. Recomendamos encarecidamente a los lectores ver nuestros resultados en video en https://langsplat.github.io.
English
Human lives in a 3D world and commonly uses natural language to interact with
a 3D scene. Modeling a 3D language field to support open-ended language queries
in 3D has gained increasing attention recently. This paper introduces
LangSplat, which constructs a 3D language field that enables precise and
efficient open-vocabulary querying within 3D spaces. Unlike existing methods
that ground CLIP language embeddings in a NeRF model, LangSplat advances the
field by utilizing a collection of 3D Gaussians, each encoding language
features distilled from CLIP, to represent the language field. By employing a
tile-based splatting technique for rendering language features, we circumvent
the costly rendering process inherent in NeRF. Instead of directly learning
CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and
then learns language features on the scene-specific latent space, thereby
alleviating substantial memory demands imposed by explicit modeling. Existing
methods struggle with imprecise and vague 3D language fields, which fail to
discern clear boundaries between objects. We delve into this issue and propose
to learn hierarchical semantics using SAM, thereby eliminating the need for
extensively querying the language field across various scales and the
regularization of DINO features. Extensive experiments on open-vocabulary 3D
object localization and semantic segmentation demonstrate that LangSplat
significantly outperforms the previous state-of-the-art method LERF by a large
margin. Notably, LangSplat is extremely efficient, achieving a {\speed}
times speedup compared to LERF at the resolution of 1440 times 1080. We
strongly recommend readers to check out our video results at
https://langsplat.github.io