OpenVoxel: Trainingsvrije Groepering en Beschrijving van Voxels voor Open-Vocabulair 3D-Scènebegrip
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
Auteurs: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
Samenvatting
Wij presenteren OpenVoxel, een trainingsvrij algoritme voor het groeperen en voorzien van bijschriften bij sparse voxels, met als doel open-vocabulary 3D-scènebegrip. Uitgaande van het sparse voxel-rasterisatiemodel (SVR) dat verkregen is uit multi-view beelden van een 3D-scène, is onze OpenVoxel in staat zinvolle groepen te produceren die verschillende objecten in de scène beschrijven. Door gebruik te maken van krachtige Vision Language Models (VLM's) en Multi-modale Large Language Models (MLLM's), bouwt onze OpenVoxel succesvol een informatieve scenekaart op door elke groep van een bijschrift te voorzien, wat verdere 3D-scènebegriptaken mogelijk maakt, zoals open-vocabulary segmentatie (OVS) of referring expression segmentation (RES). In tegenstelling tot eerdere methoden is onze methode trainingsvrij en introduceert ze geen embeddings van een CLIP/BERT-tekstencoder. In plaats daarvan gaan we direct over tot tekst-naar-tekst zoekopdrachten met behulp van MLLM's. Door middel van uitgebreide experimenten toont onze methode superieure prestaties aan in vergelijking met recente studies, met name in complexe referring expression segmentation (RES)-taken. De code wordt openbaar gemaakt.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.