OpenVoxel: Agrupación y Subtitulado de Vóxeles sin Entrenamiento para la Comprensión de Escenas 3D con Vocabulario Abierto
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
Autores: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
Resumen
Proponemos OpenVoxel, un algoritmo libre de entrenamiento para agrupar y describir vóxeles dispersos en tareas de comprensión de escenas 3D de vocabulario abierto. Dado el modelo de rasterización de vóxeles dispersos (SVR, por sus siglas en inglés) obtenido a partir de imágenes multi-vista de una escena 3D, nuestro OpenVoxel es capaz de producir grupos significativos que describen los diferentes objetos en la escena. Además, aprovechando los potentes Modelos de Lenguaje-Visión (VLMs) y los Modelos de Lenguaje Grande Multimodales (MLLMs), nuestro OpenVoxel construye exitosamente un mapa de escena informativo al generar descripciones para cada grupo, permitiendo tareas adicionales de comprensión de escenas 3D, como la segmentación de vocabulario abierto (OVS) o la segmentación por expresiones de referencia (RES). A diferencia de métodos anteriores, nuestra técnica es libre de entrenamiento y no introduce *embeddings* de un codificador de texto CLIP/BERT. En su lugar, procedemos directamente con una búsqueda de texto a texto utilizando MLLMs. A través de experimentos exhaustivos, nuestro método demuestra un rendimiento superior en comparación con estudios recientes, particularmente en complejas tareas de segmentación por expresiones de referencia (RES). El código será abierto.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.