ChatPaper.aiChatPaper

OpenVoxel: トレーニング不要なボクセルグループ化とキャプション生成によるオープン語彙3Dシーン理解

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
著者: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

要旨

我々は、OpenVoxelを提案する。これは、オープン語彙による3Dシーン理解タスクのための、疎なボクセルのグループ化とキャプション生成を訓練なしで行うアルゴリズムである。3Dシーンの多視点画像から得られた疎ボクセルラスタライゼーション(SVR)モデルを入力として、我々のOpenVoxelは、シーン内の異なるオブジェクトを記述する意味のあるグループを生成することができる。また、強力な視覚言語モデル(VLM)とマルチモーダル大規模言語モデル(MLLM)を活用することで、OpenVoxelは各グループにキャプションを付与し、情報豊かなシーンマップの構築に成功する。これにより、オープン語彙セグメンテーション(OVS)や参照式セグメンテーション(RES)などの、さらなる3Dシーン理解タスクが可能となる。従来手法とは異なり、本手法は訓練を必要とせず、CLIP/BERTテキストエンコーダからの埋め込みを導入しない。代わりに、MLLMを用いてテキスト対テキストの検索を直接行う。大規模な実験を通じて、本手法は最近の研究と比較して優れた性能を示し、特に複雑な参照式セグメンテーション(RES)タスクにおいてその有効性が確認された。コードは公開予定である。
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF223January 16, 2026