LangSplat : Projection de Gaussiennes 3D pour le Langage
LangSplat: 3D Language Gaussian Splatting
December 26, 2023
Auteurs: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
cs.AI
Résumé
Les humains vivent dans un monde en 3D et utilisent couramment le langage naturel pour interagir avec une scène en 3D. La modélisation d'un champ de langage en 3D pour prendre en charge des requêtes linguistiques ouvertes dans un environnement 3D a récemment suscité un intérêt croissant. Cet article présente LangSplat, qui construit un champ de langage en 3D permettant des requêtes précises et efficaces en vocabulaire ouvert dans des espaces 3D. Contrairement aux méthodes existantes qui ancrent les embeddings linguistiques de CLIP dans un modèle NeRF, LangSplat fait progresser le domaine en utilisant une collection de Gaussiennes 3D, chacune encodant des caractéristiques linguistiques distillées à partir de CLIP, pour représenter le champ de langage. En employant une technique de splatting basée sur des tuiles pour le rendu des caractéristiques linguistiques, nous contournons le processus de rendu coûteux inhérent à NeRF. Au lieu d'apprendre directement les embeddings de CLIP, LangSplat entraîne d'abord un autoencodeur linguistique par scène, puis apprend les caractéristiques linguistiques dans l'espace latent spécifique à la scène, réduisant ainsi les demandes de mémoire importantes imposées par la modélisation explicite. Les méthodes existantes peinent à produire des champs de langage 3D précis et non ambigus, qui échouent à discerner des frontières claires entre les objets. Nous explorons cette problématique et proposons d'apprendre des sémantiques hiérarchiques en utilisant SAM, éliminant ainsi le besoin de requêter intensivement le champ de langage à différentes échelles et la régularisation des caractéristiques DINO. Des expériences approfondies sur la localisation d'objets 3D en vocabulaire ouvert et la segmentation sémantique démontrent que LangSplat surpasse largement la méthode précédente de pointe, LERF. Notamment, LangSplat est extrêmement efficace, atteignant une accélération de {\speed} fois par rapport à LERF à une résolution de 1440 fois 1080. Nous recommandons vivement aux lecteurs de consulter nos résultats vidéo sur https://langsplat.github.io.
English
Human lives in a 3D world and commonly uses natural language to interact with
a 3D scene. Modeling a 3D language field to support open-ended language queries
in 3D has gained increasing attention recently. This paper introduces
LangSplat, which constructs a 3D language field that enables precise and
efficient open-vocabulary querying within 3D spaces. Unlike existing methods
that ground CLIP language embeddings in a NeRF model, LangSplat advances the
field by utilizing a collection of 3D Gaussians, each encoding language
features distilled from CLIP, to represent the language field. By employing a
tile-based splatting technique for rendering language features, we circumvent
the costly rendering process inherent in NeRF. Instead of directly learning
CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and
then learns language features on the scene-specific latent space, thereby
alleviating substantial memory demands imposed by explicit modeling. Existing
methods struggle with imprecise and vague 3D language fields, which fail to
discern clear boundaries between objects. We delve into this issue and propose
to learn hierarchical semantics using SAM, thereby eliminating the need for
extensively querying the language field across various scales and the
regularization of DINO features. Extensive experiments on open-vocabulary 3D
object localization and semantic segmentation demonstrate that LangSplat
significantly outperforms the previous state-of-the-art method LERF by a large
margin. Notably, LangSplat is extremely efficient, achieving a {\speed}
times speedup compared to LERF at the resolution of 1440 times 1080. We
strongly recommend readers to check out our video results at
https://langsplat.github.io