ChatPaper.aiChatPaper

OpenVoxel: Trainingsfreie Gruppierung und Beschriftung von Voxeln für Open-Vocabulary-3D-Szenenverständnis

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
papers.authors: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

papers.abstract

Wir stellen OpenVoxel vor, einen trainierungsfreien Algorithmus zur Gruppierung und Beschriftung spärlicher Voxel für Open-Vocabulary-Aufgaben im Bereich des 3D-Szenenverständnisses. Ausgehend vom Sparse Voxel Rasterization (SVR)-Modell, das aus Multi-View-Bildern einer 3D-Szene gewonnen wurde, ist unser OpenVoxel in der Lage, bedeutungsvolle Gruppen zu erzeugen, die verschiedene Objekte in der Szene beschreiben. Durch die Nutzung leistungsstarker Vision-Language-Modelle (VLMs) und multimodaler Large Language Models (MLLMs) erstellt unser OpenVoxel erfolgreich eine informative Szenenkarte, indem jede Gruppe beschriftet wird. Dies ermöglicht weitere Aufgaben zum 3D-Szenenverständnis, wie Open-Vocabulary-Segmentierung (OVS) oder Referring Expression Segmentation (RES). Im Gegensatz zu früheren Methoden ist unser Ansatz trainierungsfrei und führt keine Embeddings aus einem CLIP-/BERT-Textencoder ein. Stattdessen führen wir direkt eine Text-zu-Text-Suche mit MLLMs durch. In umfangreichen Experimenten zeigt unsere Methode eine überlegene Leistung im Vergleich zu aktuellen Studien, insbesondere bei komplexen Referring Expression Segmentation (RES)-Aufgaben. Der Code wird open source verfügbar sein.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF223January 16, 2026