ChatPaper.aiChatPaper

OpenVoxel : Regroupement et légendage de voxels sans apprentissage pour la compréhension de scènes 3D en vocabulaire ouvert

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
papers.authors: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

papers.abstract

Nous proposons OpenVoxel, un algorithme sans apprentissage pour regrouper et légender des voxels épars dans le cadre de tâches de compréhension de scènes 3D en vocabulaire libre. Étant donné le modèle de rasterisation de voxels épars (SVR) obtenu à partir d'images multi-vues d'une scène 3D, notre méthode OpenVoxel est capable de produire des regroupements significatifs qui décrivent les différents objets de la scène. De plus, en tirant parti des modèles vision-langage (VLM) et des grands modèles de langage multimodaux (MLLM), OpenVoxel construit avec succès une carte scénique informative en légendant chaque groupe, permettant ainsi des tâches avancées de compréhension de scènes 3D telles que la segmentation en vocabulaire libre (OVS) ou la segmentation par expression référentielle (RES). Contrairement aux méthodes précédentes, notre approche est non supervisée et n'introduit pas d'embeddings issus d'un encodeur de texte CLIP/BERT. Nous procédons plutôt directement par recherche texte-à-texte à l'aide de MLLM. À travers des expérimentations approfondies, notre méthode démontre des performances supérieures par rapport aux études récentes, particulièrement dans les tâches complexes de segmentation par expression référentielle (RES). Le code sera ouvert.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF223January 16, 2026