ChatPaper.aiChatPaper

LangSplatV2: Hochdimensionale 3D-Sprach-Gaussian-Splatting mit über 450 FPS

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

July 9, 2025
papers.authors: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI

papers.abstract

In diesem Artikel stellen wir LangSplatV2 vor, das hochdimensionale Feature-Splatting mit 476,2 FPS und 3D-Open-Vocabulary-Textabfragen mit 384,6 FPS für hochauflösende Bilder erreicht. Dies bietet eine 42-fache Beschleunigung und eine 47-fache Steigerung gegenüber LangSplat sowie eine verbesserte Abfragegenauigkeit. LangSplat nutzt Gaussian Splatting, um 2D-CLIP-Sprachfeatures in 3D einzubetten, wodurch die Geschwindigkeit deutlich erhöht und ein präzises 3D-Sprachfeld mit SAM-Semantik erlernt wird. Solche Fortschritte in 3D-Sprachfeldern sind entscheidend für Anwendungen, die Sprachinteraktion in komplexen Szenen erfordern. Allerdings erreicht LangSplat noch keine Echtzeit-Inferenzleistung (8,2 FPS), selbst mit fortschrittlichen A100-GPUs, was seine breitere Anwendung stark einschränkt. In diesem Artikel führen wir zunächst eine detaillierte Zeitanalyse von LangSplat durch und identifizieren den aufwendigen Decoder als den primären Geschwindigkeitsengpass. Unsere Lösung, LangSplatV2, geht davon aus, dass jede Gaußsche Funktion als spärlicher Code in einem globalen Wörterbuch fungiert, was zum Erlernen eines 3D-spärlichen Koeffizientenfelds führt, das den Bedarf an einem aufwendigen Decoder vollständig eliminiert. Durch die Nutzung dieser Sparsität schlagen wir weiterhin eine effiziente Methode zum Splatting spärlicher Koeffizienten mit CUDA-Optimierung vor, die hochdimensionale Feature-Maps in hoher Qualität rendert, während nur der Zeitaufwand für das Splatting eines ultra-niedrigdimensionalen Features anfällt. Unsere experimentellen Ergebnisse zeigen, dass LangSplatV2 nicht nur eine bessere oder wettbewerbsfähige Abfragegenauigkeit erreicht, sondern auch deutlich schneller ist. Codes und Demos sind auf unserer Projektseite verfügbar: https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 times speedup and a 47 times boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.
PDF201July 11, 2025