ChatPaper.aiChatPaper

OpenVoxel: Trainingsvrije Groepering en Beschrijving van Voxels voor Open-Vocabulair 3D-Scènebegrip

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
Auteurs: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

Samenvatting

Wij presenteren OpenVoxel, een trainingsvrij algoritme voor het groeperen en voorzien van bijschriften bij sparse voxels, met als doel open-vocabulary 3D-scènebegrip. Uitgaande van het sparse voxel-rasterisatiemodel (SVR) dat verkregen is uit multi-view beelden van een 3D-scène, is onze OpenVoxel in staat zinvolle groepen te produceren die verschillende objecten in de scène beschrijven. Door gebruik te maken van krachtige Vision Language Models (VLM's) en Multi-modale Large Language Models (MLLM's), bouwt onze OpenVoxel succesvol een informatieve scenekaart op door elke groep van een bijschrift te voorzien, wat verdere 3D-scènebegriptaken mogelijk maakt, zoals open-vocabulary segmentatie (OVS) of referring expression segmentation (RES). In tegenstelling tot eerdere methoden is onze methode trainingsvrij en introduceert ze geen embeddings van een CLIP/BERT-tekstencoder. In plaats daarvan gaan we direct over tot tekst-naar-tekst zoekopdrachten met behulp van MLLM's. Door middel van uitgebreide experimenten toont onze methode superieure prestaties aan in vergelijking met recente studies, met name in complexe referring expression segmentation (RES)-taken. De code wordt openbaar gemaakt.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF223January 16, 2026