ChatPaper.aiChatPaper

LangSplatV2: Splatting Gaussiano 3D ad Alta Dimensionalità con Linguaggio a oltre 450 FPS

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

July 9, 2025
Autori: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI

Abstract

In questo articolo presentiamo LangSplatV2, che raggiunge lo splatting di feature ad alta dimensionalità a 476.2 FPS e il text querying 3D open-vocabulary a 384.6 FPS per immagini ad alta risoluzione, fornendo un'accelerazione di 42 volte e un miglioramento di 47 volte rispetto a LangSplat, insieme a una maggiore accuratezza nelle query. LangSplat utilizza il Gaussian Splatting per incorporare feature linguistiche 2D di CLIP in 3D, migliorando significativamente la velocità e apprendendo un campo linguistico 3D preciso con semantica SAM. Tali progressi nei campi linguistici 3D sono cruciali per applicazioni che richiedono interazione linguistica all'interno di scene complesse. Tuttavia, LangSplat non raggiunge ancora prestazioni di inferenza in tempo reale (8.2 FPS), anche con GPU A100 avanzate, limitando fortemente la sua applicazione su larga scala. In questo articolo, conduciamo prima un'analisi dettagliata del tempo di LangSplat, identificando il decoder pesante come il principale collo di bottiglia per la velocità. La nostra soluzione, LangSplatV2, assume che ogni Gaussiana agisca come un codice sparso all'interno di un dizionario globale, portando all'apprendimento di un campo di coefficienti sparsi 3D che elimina completamente la necessità di un decoder pesante. Sfruttando questa sparsità, proponiamo ulteriormente un metodo efficiente di splatting di coefficienti sparsi con ottimizzazione CUDA, rendendo mappe di feature ad alta dimensionalità con alta qualità mentre si sostiene solo il costo temporale dello splatting di una feature a dimensione ultra-bassa. I nostri risultati sperimentali dimostrano che LangSplatV2 non solo raggiunge un'accuratezza nelle query migliore o competitiva, ma è anche significativamente più veloce. Codici e demo sono disponibili sulla nostra pagina del progetto: https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 times speedup and a 47 times boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.
PDF351July 11, 2025