ChatPaper.aiChatPaper

OpenVoxel: 개방형 어휘 3D 장면 이해를 위한 학습 없이 그룹화 및 캡션을 생성하는 복셀 기법

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

January 14, 2026
저자: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun
cs.AI

초록

본 논문에서는 오픈-보케블러리 3D 장면 이해를 위한 희소 복셀 그룹화 및 캡션 생성이 가능한 훈련 불요(訓練不要) 알고리즘인 OpenVoxel을 제안한다. 3D 장면의 다중 뷰 이미지로부터 얻은 희소 복셀 래스터화(SVR) 모델을 입력받아, 제안하는 OpenVoxel은 장면 내 다양한 객체들을 설명하는 의미론적 그룹들을 생성할 수 있다. 또한 강력한 비전-언어 모델(VLM)과 다중 모달 대형 언어 모델(MLLM)을 활용하여 각 그룹에 대한 캡션을 생성함으로써 정보적 장면 지도를 성공적으로 구축하며, 이를 통해 오픈-보케블러리 분할(OVS) 또는 참조 표현 분할(RES)과 같은 추가적인 3D 장면 이해 작업을 가능하게 한다. 기존 방법들과 달리, 본 방법은 훈련이 필요 없으며 CLIP/BERT 텍스트 인코더로부터 임베딩을 도입하지 않는다. 대신 MLLM을 이용한 텍스트-대-텍스트(text-to-text) 검색을 직접 수행한다. 광범위한 실험을 통해, 특히 복잡한 참조 표현 분할(RES) 작업에서 최근 연구들 대비 우수한 성능을 입증하였다. 코드는 공개될 예정이다.
English
We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
PDF223January 16, 2026