LangSplatV2: Hoogdimensionale 3D-taal-Gaussian Splatting met 450+ FPS
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS
July 9, 2025
Auteurs: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI
Samenvatting
In dit artikel introduceren we LangSplatV2, dat hoogdimensionale feature splatting bereikt met 476,2 FPS en 3D open-vocabulary tekstquery’s met 384,6 FPS voor hoogresolutiebeelden, wat een versnelling van 42 keer en een verbetering van 47 keer ten opzichte van LangSplat oplevert, samen met een verbeterde querynauwkeurigheid. LangSplat maakt gebruik van Gaussian Splatting om 2D CLIP-taalfeatures in 3D in te bedden, waardoor de snelheid aanzienlijk wordt verhoogd en een precies 3D-taalveld met SAM-semantiek wordt geleerd. Dergelijke vooruitgangen in 3D-taalvelden zijn cruciaal voor toepassingen die taalinteractie binnen complexe scènes vereisen. LangSplat bereikt echter nog geen real-time inferentieprestaties (8,2 FPS), zelfs niet met geavanceerde A100 GPU’s, wat de bredere toepassing ervan ernstig beperkt. In dit artikel voeren we eerst een gedetailleerde tijdanalyse uit van LangSplat, waarbij we de zware decoder identificeren als de belangrijkste snelheidsbeperking. Onze oplossing, LangSplatV2, gaat ervan uit dat elke Gaussiaan fungeert als een sparse code binnen een globaal woordenboek, wat leidt tot het leren van een 3D sparse coëfficiëntenveld dat de noodzaak van een zware decoder volledig elimineert. Door deze sparsity te benutten, stellen we verder een efficiënte sparse coëfficiënten splatting-methode voor met CUDA-optimalisatie, die hoogdimensionale feature maps van hoge kwaliteit weergeeft terwijl slechts de tijdskosten van het splatten van een ultra-laagdimensionaal feature worden gemaakt. Onze experimentele resultaten tonen aan dat LangSplatV2 niet alleen een betere of vergelijkbare querynauwkeurigheid bereikt, maar ook aanzienlijk sneller is. Codes en demo’s zijn beschikbaar op onze projectpagina: https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional
feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6
FPS for high-resolution images, providing a 42 times speedup and a 47
times boost over LangSplat respectively, along with improved query accuracy.
LangSplat employs Gaussian Splatting to embed 2D CLIP language features into
3D, significantly enhancing speed and learning a precise 3D language field with
SAM semantics. Such advancements in 3D language fields are crucial for
applications that require language interaction within complex scenes. However,
LangSplat does not yet achieve real-time inference performance (8.2 FPS), even
with advanced A100 GPUs, severely limiting its broader application. In this
paper, we first conduct a detailed time analysis of LangSplat, identifying the
heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2
assumes that each Gaussian acts as a sparse code within a global dictionary,
leading to the learning of a 3D sparse coefficient field that entirely
eliminates the need for a heavyweight decoder. By leveraging this sparsity, we
further propose an efficient sparse coefficient splatting method with CUDA
optimization, rendering high-dimensional feature maps at high quality while
incurring only the time cost of splatting an ultra-low-dimensional feature. Our
experimental results demonstrate that LangSplatV2 not only achieves better or
competitive query accuracy but is also significantly faster. Codes and demos
are available at our project page: https://langsplat-v2.github.io.