OpenVoxel: Trainingsfreie Gruppierung und Beschriftung von Voxeln für Open-Vocabulary-3D-Szenenverständnis
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
papers.authors: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
papers.abstract
Wir stellen OpenVoxel vor, einen trainierungsfreien Algorithmus zur Gruppierung und Beschriftung spärlicher Voxel für Open-Vocabulary-Aufgaben im Bereich des 3D-Szenenverständnisses. Ausgehend vom Sparse Voxel Rasterization (SVR)-Modell, das aus Multi-View-Bildern einer 3D-Szene gewonnen wurde, ist unser OpenVoxel in der Lage, bedeutungsvolle Gruppen zu erzeugen, die verschiedene Objekte in der Szene beschreiben. Durch die Nutzung leistungsstarker Vision-Language-Modelle (VLMs) und multimodaler Large Language Models (MLLMs) erstellt unser OpenVoxel erfolgreich eine informative Szenenkarte, indem jede Gruppe beschriftet wird. Dies ermöglicht weitere Aufgaben zum 3D-Szenenverständnis, wie Open-Vocabulary-Segmentierung (OVS) oder Referring Expression Segmentation (RES). Im Gegensatz zu früheren Methoden ist unser Ansatz trainierungsfrei und führt keine Embeddings aus einem CLIP-/BERT-Textencoder ein. Stattdessen führen wir direkt eine Text-zu-Text-Suche mit MLLMs durch. In umfangreichen Experimenten zeigt unsere Methode eine überlegene Leistung im Vergleich zu aktuellen Studien, insbesondere bei komplexen Referring Expression Segmentation (RES)-Aufgaben. Der Code wird open source verfügbar sein.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.