OpenVoxel: Raggruppamento e Descrizione di Voxel Senza Addestramento per la Comprensione di Scene 3D a Vocabolario Aperto
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
Autori: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
Abstract
Proponiamo OpenVoxel, un algoritmo che non richiede addestramento per raggruppare e descrivere con didascalie voxel sparsi, destinato a compiti di comprensione di scene 3D a vocabolario aperto. Dato il modello di rasterizzazione di voxel sparsi (SVR) ottenuto da immagini multi-vista di una scena 3D, il nostro OpenVoxel è in grado di produrre raggruppamenti significativi che descrivono i diversi oggetti nella scena. Inoltre, sfruttando potenti Modelli Linguaggio-Visione (VLM) e Modelli Linguistici di Grande Dimensione Multi-modali (MLLM), il nostro OpenVoxel costruisce con successo una mappa informativa della scena assegnando una didascalia a ciascun gruppo, abilitando ulteriori compiti di comprensione della scena 3D come la segmentazione a vocabolario aperto (OVS) o la segmentazione per espressione referenziale (RES). A differenza dei metodi precedenti, il nostro approccio non richiede addestramento e non introduce embedding da un codificatore di testo CLIP/BERT. Invece, procediamo direttamente con una ricerca testo-a-testo utilizzando gli MLLM. Attraverso esperimenti estensivi, il nostro metodo dimostra prestazioni superiori rispetto a studi recenti, in particolare nei complessi compiti di segmentazione per espressione referenziale (RES). Il codice sarà open-source.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.