OpenVoxel: Обучение без группировки и описания вокселей для понимания трехмерных сцен с открытым словарем
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
Авторы: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
Аннотация
Мы представляем OpenVoxel — алгоритм без обучения для группировки и описания разреженных вокселей в задачах понимания 3D-сцен с открытым словарём. Получив модель разреженной воксельной растеризации (SVR) из многовидовых изображений 3D-сцены, наш OpenVoxel способен формировать осмысленные группы, описывающие различные объекты в сцене. Кроме того, используя мощные Vision Language Models (VLM) и Multimodal Large Language Models (MLLM), наш OpenVoxel успешно строит информативную карту сцены, присваивая описания каждой группе, что позволяет решать дальнейшие задачи понимания 3D-сцен, такие как сегментация с открытым словарём (OVS) или сегментация по референциальным выражениям (RES). В отличие от предыдущих методов, наш подход не требует обучения и не использует эмбеддинги из текстового энкодера CLIP/BERT. Вместо этого мы напрямую выполняем текстовый поиск с помощью MLLM. В ходе обширных экспериментов наш метод продемонстрировал превосходную производительность по сравнению с недавними исследованиями, особенно в сложных задачах сегментации по референциальным выражениям (RES). Код будет открыт.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.