ChatPaper.aiChatPaper

LangSplatV2: Splatting Gaussiano 3D de Lenguaje de Alta Dimensión con más de 450 FPS

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

July 9, 2025
Autores: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI

Resumen

En este artículo, presentamos LangSplatV2, que logra el splatting de características de alta dimensión a 476.2 FPS y consultas de texto de vocabulario abierto en 3D a 384.6 FPS para imágenes de alta resolución, proporcionando una aceleración de 42 veces y un aumento de 47 veces sobre LangSplat, respectivamente, junto con una precisión de consulta mejorada. LangSplat emplea Gaussian Splatting para incrustar características de lenguaje CLIP 2D en 3D, mejorando significativamente la velocidad y aprendiendo un campo de lenguaje 3D preciso con semántica SAM. Tales avances en los campos de lenguaje 3D son cruciales para aplicaciones que requieren interacción de lenguaje dentro de escenas complejas. Sin embargo, LangSplat aún no logra un rendimiento de inferencia en tiempo real (8.2 FPS), incluso con GPUs A100 avanzadas, lo que limita severamente su aplicación más amplia. En este artículo, primero realizamos un análisis detallado del tiempo de LangSplat, identificando al decodificador pesado como el principal cuello de botella de velocidad. Nuestra solución, LangSplatV2, asume que cada Gaussiana actúa como un código disperso dentro de un diccionario global, lo que lleva al aprendizaje de un campo de coeficientes dispersos en 3D que elimina por completo la necesidad de un decodificador pesado. Al aprovechar esta dispersión, proponemos además un método eficiente de splatting de coeficientes dispersos con optimización CUDA, renderizando mapas de características de alta dimensión con alta calidad mientras incurre solo en el costo de tiempo de splatting de una característica de ultra baja dimensión. Nuestros resultados experimentales demuestran que LangSplatV2 no solo logra una precisión de consulta mejor o competitiva, sino que también es significativamente más rápido. Los códigos y demostraciones están disponibles en nuestra página del proyecto: https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 times speedup and a 47 times boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.
PDF191July 11, 2025