OpenVoxel: Agrupamento e Legendagem de Voxels sem Treinamento para Compreensão de Cenas 3D com Vocabulário Aberto
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
Autores: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
Resumo
Propomos o OpenVoxel, um algoritmo livre de treinamento para agrupar e descrever vóxels esparsos para tarefas de compreensão de cenas 3D com vocabulário aberto. Dado o modelo de rasterização de vóxels esparsos (SVR, do inglês *Sparse Voxel Rasterization*) obtido a partir de imagens multi-visão de uma cena 3D, nosso OpenVoxel é capaz de produzir agrupamentos significativos que descrevem diferentes objetos na cena. Além disso, ao aproveitar poderosos Modelos de Linguagem Visual (VLMs, do inglês *Vision Language Models*) e Modelos de Linguagem Grande Multimodais (MLLMs, do inglês *Multi-modal Large Language Models*), nosso OpenVoxel constrói com sucesso um mapa de cena informativo ao gerar legendas para cada grupo, permitindo tarefas avançadas de compreensão de cenas 3D, como segmentação de vocabulário aberto (OVS, do inglês *Open-Vocabulary Segmentation*) ou segmentação por expressão de referência (RES, do inglês *Referring Expression Segmentation*). Diferente de métodos anteriores, nossa abordagem é livre de treinamento e não introduz *embeddings* de um codificador de texto CLIP/BERT. Em vez disso, realizamos diretamente uma busca texto-a-texto usando MLLMs. Por meio de experimentos extensivos, nosso método demonstra desempenho superior em comparação com estudos recentes, particularmente em tarefas complexas de segmentação por expressão de referência (RES). O código será aberto.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.