ChatPaper.aiChatPaper

OpenVoxel: Raggruppamento e Descrizione di Voxel Senza Addestramento per la Comprensione di Scene 3D a Vocabolario Aperto

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
Autori: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

Abstract

Proponiamo OpenVoxel, un algoritmo che non richiede addestramento per raggruppare e descrivere con didascalie voxel sparsi, destinato a compiti di comprensione di scene 3D a vocabolario aperto. Dato il modello di rasterizzazione di voxel sparsi (SVR) ottenuto da immagini multi-vista di una scena 3D, il nostro OpenVoxel è in grado di produrre raggruppamenti significativi che descrivono i diversi oggetti nella scena. Inoltre, sfruttando potenti Modelli Linguaggio-Visione (VLM) e Modelli Linguistici di Grande Dimensione Multi-modali (MLLM), il nostro OpenVoxel costruisce con successo una mappa informativa della scena assegnando una didascalia a ciascun gruppo, abilitando ulteriori compiti di comprensione della scena 3D come la segmentazione a vocabolario aperto (OVS) o la segmentazione per espressione referenziale (RES). A differenza dei metodi precedenti, il nostro approccio non richiede addestramento e non introduce embedding da un codificatore di testo CLIP/BERT. Invece, procediamo direttamente con una ricerca testo-a-testo utilizzando gli MLLM. Attraverso esperimenti estensivi, il nostro metodo dimostra prestazioni superiori rispetto a studi recenti, in particolare nei complessi compiti di segmentazione per espressione referenziale (RES). Il codice sarà open-source.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF264February 27, 2026