LangSplatV2: 450 FPS以上の高次元3D言語ガウススプラッティング
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS
July 9, 2025
著者: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI
要旨
本論文では、LangSplatV2を紹介する。これは高解像度画像に対して476.2 FPSの高次元特徴スプラッティングと384.6 FPSの3Dオープン語彙テキストクエリを実現し、LangSplatと比較して42倍の高速化と47倍の性能向上、およびクエリ精度の向上を達成した。LangSplatはGaussian Splattingを用いて2D CLIP言語特徴を3Dに埋め込み、速度を大幅に向上させるとともに、SAMセマンティクスを用いた精密な3D言語フィールドを学習する。このような3D言語フィールドの進展は、複雑なシーン内での言語インタラクションを必要とするアプリケーションにとって重要である。しかし、LangSplatは最先端のA100 GPUを使用してもリアルタイム推論性能(8.2 FPS)を達成できず、その広範な応用を大きく制限している。本論文ではまず、LangSplatの詳細な時間分析を行い、重いデコーダが主要な速度ボトルネックであることを特定した。我々の解決策であるLangSplatV2は、各ガウシアンがグローバル辞書内のスパースコードとして機能すると仮定し、重いデコーダを完全に不要とする3Dスパース係数フィールドの学習を実現した。このスパース性を活用し、CUDA最適化を施した効率的なスパース係数スプラッティング手法を提案することで、高次元特徴マップを高品質にレンダリングしつつ、超低次元特徴のスプラッティングと同等の時間コストしか発生させない。実験結果は、LangSplatV2がより優れた、あるいは同等のクエリ精度を達成するだけでなく、大幅に高速であることを示している。コードとデモはプロジェクトページ(https://langsplat-v2.github.io)で公開されている。
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional
feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6
FPS for high-resolution images, providing a 42 times speedup and a 47
times boost over LangSplat respectively, along with improved query accuracy.
LangSplat employs Gaussian Splatting to embed 2D CLIP language features into
3D, significantly enhancing speed and learning a precise 3D language field with
SAM semantics. Such advancements in 3D language fields are crucial for
applications that require language interaction within complex scenes. However,
LangSplat does not yet achieve real-time inference performance (8.2 FPS), even
with advanced A100 GPUs, severely limiting its broader application. In this
paper, we first conduct a detailed time analysis of LangSplat, identifying the
heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2
assumes that each Gaussian acts as a sparse code within a global dictionary,
leading to the learning of a 3D sparse coefficient field that entirely
eliminates the need for a heavyweight decoder. By leveraging this sparsity, we
further propose an efficient sparse coefficient splatting method with CUDA
optimization, rendering high-dimensional feature maps at high quality while
incurring only the time cost of splatting an ultra-low-dimensional feature. Our
experimental results demonstrate that LangSplatV2 not only achieves better or
competitive query accuracy but is also significantly faster. Codes and demos
are available at our project page: https://langsplat-v2.github.io.