LangSplatV2: Высокомерное 3D-языковое гауссово размытие с частотой более 450 кадров в секунду
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS
July 9, 2025
Авторы: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister
cs.AI
Аннотация
В данной статье мы представляем LangSplatV2, который достигает высокоскоростного сплатинга многомерных признаков на скорости 476.2 кадров в секунду (FPS) и выполнения 3D-запросов с открытым словарем на скорости 384.6 FPS для изображений высокого разрешения, что обеспечивает ускорение в 42 раза и улучшение производительности в 47 раз по сравнению с LangSplat, а также повышение точности запросов. LangSplat использует метод Gaussian Splatting для встраивания 2D языковых признаков CLIP в 3D-пространство, значительно повышая скорость и обучая точное 3D языковое поле с семантикой SAM. Такие достижения в области 3D языковых полей крайне важны для приложений, требующих языкового взаимодействия в сложных сценах. Однако LangSplat пока не достигает производительности в режиме реального времени (8.2 FPS), даже с использованием современных GPU A100, что серьезно ограничивает его широкое применение. В этой статье мы сначала проводим детальный временной анализ LangSplat, выявляя тяжеловесный декодер как основное узкое место в скорости. Наше решение, LangSplatV2, предполагает, что каждый гауссовский элемент действует как разреженный код в глобальном словаре, что приводит к обучению 3D поля разреженных коэффициентов, полностью устраняя необходимость в тяжеловесном декодере. Используя эту разреженность, мы также предлагаем эффективный метод сплатинга разреженных коэффициентов с оптимизацией на CUDA, который обеспечивает рендеринг многомерных карт признаков высокого качества при затратах времени, сопоставимых с сплатингом ультранизкоразмерного признака. Наши экспериментальные результаты показывают, что LangSplatV2 не только достигает лучшей или сопоставимой точности запросов, но и значительно быстрее. Коды и демонстрации доступны на странице проекта: https://langsplat-v2.github.io.
English
In this paper, we introduce LangSplatV2, which achieves high-dimensional
feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6
FPS for high-resolution images, providing a 42 times speedup and a 47
times boost over LangSplat respectively, along with improved query accuracy.
LangSplat employs Gaussian Splatting to embed 2D CLIP language features into
3D, significantly enhancing speed and learning a precise 3D language field with
SAM semantics. Such advancements in 3D language fields are crucial for
applications that require language interaction within complex scenes. However,
LangSplat does not yet achieve real-time inference performance (8.2 FPS), even
with advanced A100 GPUs, severely limiting its broader application. In this
paper, we first conduct a detailed time analysis of LangSplat, identifying the
heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2
assumes that each Gaussian acts as a sparse code within a global dictionary,
leading to the learning of a 3D sparse coefficient field that entirely
eliminates the need for a heavyweight decoder. By leveraging this sparsity, we
further propose an efficient sparse coefficient splatting method with CUDA
optimization, rendering high-dimensional feature maps at high quality while
incurring only the time cost of splatting an ultra-low-dimensional feature. Our
experimental results demonstrate that LangSplatV2 not only achieves better or
competitive query accuracy but is also significantly faster. Codes and demos
are available at our project page: https://langsplat-v2.github.io.