OpenVoxel: トレーニング不要なボクセルグループ化とキャプション生成によるオープン語彙3Dシーン理解
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
著者: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
要旨
我々は、OpenVoxelを提案する。これは、オープン語彙による3Dシーン理解タスクのための、疎なボクセルのグループ化とキャプション生成を訓練なしで行うアルゴリズムである。3Dシーンの多視点画像から得られた疎ボクセルラスタライゼーション(SVR)モデルを入力として、我々のOpenVoxelは、シーン内の異なるオブジェクトを記述する意味のあるグループを生成することができる。また、強力な視覚言語モデル(VLM)とマルチモーダル大規模言語モデル(MLLM)を活用することで、OpenVoxelは各グループにキャプションを付与し、情報豊かなシーンマップの構築に成功する。これにより、オープン語彙セグメンテーション(OVS)や参照式セグメンテーション(RES)などの、さらなる3Dシーン理解タスクが可能となる。従来手法とは異なり、本手法は訓練を必要とせず、CLIP/BERTテキストエンコーダからの埋め込みを導入しない。代わりに、MLLMを用いてテキスト対テキストの検索を直接行う。大規模な実験を通じて、本手法は最近の研究と比較して優れた性能を示し、特に複雑な参照式セグメンテーション(RES)タスクにおいてその有効性が確認された。コードは公開予定である。
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.