ChatPaper.aiChatPaper

OpenVoxel: Обучение без группировки и описания вокселей для понимания трехмерных сцен с открытым словарем

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
Авторы: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

Аннотация

Мы представляем OpenVoxel — алгоритм без обучения для группировки и описания разреженных вокселей в задачах понимания 3D-сцен с открытым словарём. Получив модель разреженной воксельной растеризации (SVR) из многовидовых изображений 3D-сцены, наш OpenVoxel способен формировать осмысленные группы, описывающие различные объекты в сцене. Кроме того, используя мощные Vision Language Models (VLM) и Multimodal Large Language Models (MLLM), наш OpenVoxel успешно строит информативную карту сцены, присваивая описания каждой группе, что позволяет решать дальнейшие задачи понимания 3D-сцен, такие как сегментация с открытым словарём (OVS) или сегментация по референциальным выражениям (RES). В отличие от предыдущих методов, наш подход не требует обучения и не использует эмбеддинги из текстового энкодера CLIP/BERT. Вместо этого мы напрямую выполняем текстовый поиск с помощью MLLM. В ходе обширных экспериментов наш метод продемонстрировал превосходную производительность по сравнению с недавними исследованиями, особенно в сложных задачах сегментации по референциальным выражениям (RES). Код будет открыт.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF223January 16, 2026