OpenVoxel: 개방형 어휘 3D 장면 이해를 위한 학습 없이 그룹화 및 캡션을 생성하는 복셀 기법
OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
January 14, 2026
저자: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI
초록
본 논문에서는 오픈-보케블러리 3D 장면 이해를 위한 희소 복셀 그룹화 및 캡션 생성이 가능한 훈련 불요(訓練不要) 알고리즘인 OpenVoxel을 제안한다. 3D 장면의 다중 뷰 이미지로부터 얻은 희소 복셀 래스터화(SVR) 모델을 입력받아, 제안하는 OpenVoxel은 장면 내 다양한 객체들을 설명하는 의미론적 그룹들을 생성할 수 있다. 또한 강력한 비전-언어 모델(VLM)과 다중 모달 대형 언어 모델(MLLM)을 활용하여 각 그룹에 대한 캡션을 생성함으로써 정보적 장면 지도를 성공적으로 구축하며, 이를 통해 오픈-보케블러리 분할(OVS) 또는 참조 표현 분할(RES)과 같은 추가적인 3D 장면 이해 작업을 가능하게 한다. 기존 방법들과 달리, 본 방법은 훈련이 필요 없으며 CLIP/BERT 텍스트 인코더로부터 임베딩을 도입하지 않는다. 대신 MLLM을 이용한 텍스트-대-텍스트(text-to-text) 검색을 직접 수행한다. 광범위한 실험을 통해, 특히 복잡한 참조 표현 분할(RES) 작업에서 최근 연구들 대비 우수한 성능을 입증하였다. 코드는 공개될 예정이다.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.