LangSplat: 3D-Sprach-Gaussian-Splatting
LangSplat: 3D Language Gaussian Splatting
December 26, 2023
Autoren: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
cs.AI
Zusammenfassung
Menschen leben in einer 3D-Welt und verwenden häufig natürliche Sprache, um mit einer 3D-Szene zu interagieren. Die Modellierung eines 3D-Sprachfelds zur Unterstützung von offenen Sprachabfragen in 3D hat in letzter Zeit zunehmend Aufmerksamkeit erregt. Dieses Papier stellt LangSplat vor, das ein 3D-Sprachfeld konstruiert, das präzise und effiziente offene Vokabularabfragen in 3D-Räumen ermöglicht. Im Gegensatz zu bestehenden Methoden, die CLIP-Spracheinbettungen in einem NeRF-Modell verankern, erweitert LangSplat das Feld durch die Verwendung einer Sammlung von 3D-Gaußschen, die jeweils Sprachmerkmale, die aus CLIP destilliert wurden, kodieren, um das Sprachfeld darzustellen. Durch den Einsatz einer tile-basierten Splatting-Technik für das Rendern von Sprachmerkmalen umgehen wir den kostspieligen Rendering-Prozess, der NeRF innewohnt. Anstatt CLIP-Einbettungen direkt zu lernen, trainiert LangSplat zunächst einen szenenspezifischen Sprach-Autoencoder und lernt dann Sprachmerkmale im szenenspezifischen latenten Raum, wodurch der erhebliche Speicherbedarf, der durch explizite Modellierung entsteht, verringert wird. Bestehende Methoden kämpfen mit unpräzisen und vagen 3D-Sprachfeldern, die klare Grenzen zwischen Objekten nicht erkennen können. Wir gehen auf dieses Problem ein und schlagen vor, hierarchische Semantik mit SAM zu lernen, wodurch die Notwendigkeit entfällt, das Sprachfeld in verschiedenen Maßstäben umfangreich abzufragen und DINO-Merkmale zu regularisieren. Umfangreiche Experimente zur offenen Vokabular-3D-Objektlokalisierung und semantischen Segmentierung zeigen, dass LangSplat die bisherige state-of-the-art Methode LERF deutlich übertrifft. Bemerkenswert ist, dass LangSplat äußerst effizient ist und eine Beschleunigung um das {\speed}-fache im Vergleich zu LERF bei einer Auflösung von 1440 mal 1080 erreicht. Wir empfehlen den Lesern dringend, sich unsere Videoergebnisse unter https://langsplat.github.io anzusehen.
English
Human lives in a 3D world and commonly uses natural language to interact with
a 3D scene. Modeling a 3D language field to support open-ended language queries
in 3D has gained increasing attention recently. This paper introduces
LangSplat, which constructs a 3D language field that enables precise and
efficient open-vocabulary querying within 3D spaces. Unlike existing methods
that ground CLIP language embeddings in a NeRF model, LangSplat advances the
field by utilizing a collection of 3D Gaussians, each encoding language
features distilled from CLIP, to represent the language field. By employing a
tile-based splatting technique for rendering language features, we circumvent
the costly rendering process inherent in NeRF. Instead of directly learning
CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and
then learns language features on the scene-specific latent space, thereby
alleviating substantial memory demands imposed by explicit modeling. Existing
methods struggle with imprecise and vague 3D language fields, which fail to
discern clear boundaries between objects. We delve into this issue and propose
to learn hierarchical semantics using SAM, thereby eliminating the need for
extensively querying the language field across various scales and the
regularization of DINO features. Extensive experiments on open-vocabulary 3D
object localization and semantic segmentation demonstrate that LangSplat
significantly outperforms the previous state-of-the-art method LERF by a large
margin. Notably, LangSplat is extremely efficient, achieving a {\speed}
times speedup compared to LERF at the resolution of 1440 times 1080. We
strongly recommend readers to check out our video results at
https://langsplat.github.io