ChatPaper.aiChatPaper

LangSplatV2 : Projection de Gaussiennes 3D en langage haute dimension avec plus de 450 FPS

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

July 9, 2025
papers.authors: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI

papers.abstract

Dans cet article, nous présentons LangSplatV2, qui réalise un splatting de caractéristiques de haute dimension à 476,2 FPS et des requêtes textuelles open-vocabulary en 3D à 384,6 FPS pour des images haute résolution, offrant ainsi une accélération de 42 fois et une amélioration de 47 fois par rapport à LangSplat, tout en augmentant la précision des requêtes. LangSplat utilise le Gaussian Splatting pour intégrer des caractéristiques linguistiques 2D de CLIP en 3D, améliorant significativement la vitesse et apprenant un champ linguistique 3D précis avec des sémantiques SAM. De telles avancées dans les champs linguistiques 3D sont cruciales pour les applications nécessitant une interaction linguistique dans des scènes complexes. Cependant, LangSplat n'atteint pas encore des performances d'inférence en temps réel (8,2 FPS), même avec des GPU A100 avancés, limitant ainsi fortement son application à grande échelle. Dans cet article, nous effectuons d'abord une analyse détaillée du temps de LangSplat, identifiant le décodeur lourd comme le principal goulot d'étranglement en termes de vitesse. Notre solution, LangSplatV2, suppose que chaque Gaussienne agit comme un code sparse dans un dictionnaire global, conduisant à l'apprentissage d'un champ de coefficients sparse 3D qui élimine entièrement le besoin d'un décodeur lourd. En exploitant cette sparsité, nous proposons en outre une méthode efficace de splatting de coefficients sparse avec une optimisation CUDA, rendant des cartes de caractéristiques de haute dimension avec une qualité élevée tout en ne nécessitant que le temps de splatting d'une caractéristique de très basse dimension. Nos résultats expérimentaux montrent que LangSplatV2 non seulement atteint une précision de requête meilleure ou compétitive, mais est également significativement plus rapide. Les codes et démos sont disponibles sur notre page de projet : https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 times speedup and a 47 times boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.
PDF201July 11, 2025