다중 모달리티 3D 점유율 기반 접근법을 위한 Coarse-to-Fine 전략
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding
August 2, 2025
저자: Zhan Shi, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
초록
시각적 그라운딩(Visual grounding)은 자연어 설명을 기반으로 장면 내 객체나 영역을 식별하는 것을 목표로 하며, 자율 주행에서 공간 인식에 필수적인 기술입니다. 그러나 기존의 시각적 그라운딩 작업은 일반적으로 바운딩 박스에 의존하는데, 이는 종종 세부적인 정보를 충분히 포착하지 못합니다. 바운딩 박스 내의 모든 복셀(voxel)이 객체로 채워져 있지 않기 때문에, 객체 표현이 부정확해지는 문제가 발생합니다. 이를 해결하기 위해, 우리는 도전적인 야외 장면에서의 3D 점유 그라운딩(3D occupancy grounding)을 위한 벤치마크를 소개합니다. 이 벤치마크는 nuScenes 데이터셋을 기반으로 하며, 자연어와 복셀 단위의 점유 주석을 통합하여 기존의 그라운딩 작업보다 더 정밀한 객체 인식을 제공합니다. 또한, 우리는 다중 모달 학습을 통해 3D 점유 그라운딩을 수행하기 위한 end-to-end 모델인 GroundingOcc를 제안합니다. 이 모델은 시각적, 텍스트, 포인트 클라우드 특징을 결합하여 객체의 위치와 점유 정보를 coarse-to-fine 방식으로 예측합니다. 구체적으로, GroundingOcc는 특징 추출을 위한 다중 모달 인코더, 복셀 단위 예측을 위한 점유 헤드(occupancy head), 그리고 위치 정밀화를 위한 그라운딩 헤드(grounding head)로 구성됩니다. 추가적으로, 2D 그라운딩 모듈과 깊이 추정 모듈은 기하학적 이해를 강화하여 모델 성능을 향상시킵니다. 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 기존의 3D 점유 그라운딩 베이스라인을 능가함을 입증했습니다. 데이터셋은 https://github.com/RONINGOD/GroundingOcc에서 확인할 수 있습니다.
English
Visual grounding aims to identify objects or regions in a scene based on
natural language descriptions, essential for spatially aware perception in
autonomous driving. However, existing visual grounding tasks typically depend
on bounding boxes that often fail to capture fine-grained details. Not all
voxels within a bounding box are occupied, resulting in inaccurate object
representations. To address this, we introduce a benchmark for 3D occupancy
grounding in challenging outdoor scenes. Built on the nuScenes dataset, it
integrates natural language with voxel-level occupancy annotations, offering
more precise object perception compared to the traditional grounding task.
Moreover, we propose GroundingOcc, an end-to-end model designed for 3D
occupancy grounding through multi-modal learning. It combines visual, textual,
and point cloud features to predict object location and occupancy information
from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder
for feature extraction, an occupancy head for voxel-wise predictions, and a
grounding head to refine localization. Additionally, a 2D grounding module and
a depth estimation module enhance geometric understanding, thereby boosting
model performance. Extensive experiments on the benchmark demonstrate that our
method outperforms existing baselines on 3D occupancy grounding. The dataset is
available at https://github.com/RONINGOD/GroundingOcc.