ChatPaper.aiChatPaper

LangSplatV2: Splatting Gaussiano de Linguagem 3D de Alta Dimensionalidade com mais de 450 FPS

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

July 9, 2025
Autores: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI

Resumo

Neste artigo, apresentamos o LangSplatV2, que realiza a projeção de características de alta dimensão a 476,2 FPS e consultas de texto de vocabulário aberto em 3D a 384,6 FPS para imagens de alta resolução, proporcionando um aumento de velocidade 42 vezes maior e um ganho de 47 vezes em relação ao LangSplat, juntamente com uma precisão de consulta aprimorada. O LangSplat emprega a técnica de projeção Gaussiana para incorporar características de linguagem 2D do CLIP em 3D, melhorando significativamente a velocidade e aprendendo um campo de linguagem 3D preciso com semântica SAM. Tais avanços nos campos de linguagem 3D são cruciais para aplicações que exigem interação linguística em cenas complexas. No entanto, o LangSplat ainda não alcança desempenho de inferência em tempo real (8,2 FPS), mesmo com GPUs A100 avançadas, limitando severamente sua aplicação mais ampla. Neste artigo, primeiro realizamos uma análise detalhada do tempo do LangSplat, identificando o decodificador pesado como o principal gargalo de velocidade. Nossa solução, o LangSplatV2, assume que cada Gaussiana atua como um código esparso dentro de um dicionário global, levando à aprendizagem de um campo de coeficientes esparsos 3D que elimina completamente a necessidade de um decodificador pesado. Ao aproveitar essa esparsidade, propomos ainda um método eficiente de projeção de coeficientes esparsos com otimização CUDA, renderizando mapas de características de alta dimensão com alta qualidade enquanto incorre apenas no custo de tempo de projeção de uma característica de dimensão ultrabaixa. Nossos resultados experimentais demonstram que o LangSplatV2 não apenas alcança uma precisão de consulta melhor ou competitiva, mas também é significativamente mais rápido. Códigos e demonstrações estão disponíveis em nossa página do projeto: https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 times speedup and a 47 times boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.
PDF321July 11, 2025