粗粒度から細粒度へのアプローチによるマルチモーダル3D占有空間のグラウンディング
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding
August 2, 2025
著者: Zhan Shi, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
要旨
視覚的グラウンディングは、自然言語の記述に基づいてシーン内の物体や領域を特定することを目的としており、自動運転における空間認識の重要な要素です。しかし、既存の視覚的グラウンディングタスクは、しばしば細かい詳細を捉えられないバウンディングボックスに依存しています。バウンディングボックス内のすべてのボクセルが占有されているわけではないため、物体の表現が不正確になることがあります。この問題に対処するため、我々は挑戦的な屋外シーンにおける3D占有グラウンディングのベンチマークを導入します。nuScenesデータセットに基づいて構築されたこのベンチマークは、自然言語とボクセルレベルの占有アノテーションを統合し、従来のグラウンディングタスクに比べてより正確な物体認識を提供します。さらに、我々は3D占有グラウンディングのためのエンドツーエンドモデルであるGroundingOccを提案します。このモデルは、視覚、テキスト、点群の特徴を組み合わせて、粗から細へと物体の位置と占有情報を予測します。具体的には、GroundingOccは特徴抽出のためのマルチモーダルエンコーダ、ボクセル単位の予測を行うための占有ヘッド、および位置決めを洗練するためのグラウンディングヘッドで構成されています。さらに、2Dグラウンディングモジュールと深度推定モジュールが幾何学的理解を強化し、モデルの性能を向上させます。ベンチマークでの大規模な実験により、我々の手法が3D占有グラウンディングにおいて既存のベースラインを上回ることが実証されました。データセットはhttps://github.com/RONINGOD/GroundingOccで公開されています。
English
Visual grounding aims to identify objects or regions in a scene based on
natural language descriptions, essential for spatially aware perception in
autonomous driving. However, existing visual grounding tasks typically depend
on bounding boxes that often fail to capture fine-grained details. Not all
voxels within a bounding box are occupied, resulting in inaccurate object
representations. To address this, we introduce a benchmark for 3D occupancy
grounding in challenging outdoor scenes. Built on the nuScenes dataset, it
integrates natural language with voxel-level occupancy annotations, offering
more precise object perception compared to the traditional grounding task.
Moreover, we propose GroundingOcc, an end-to-end model designed for 3D
occupancy grounding through multi-modal learning. It combines visual, textual,
and point cloud features to predict object location and occupancy information
from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder
for feature extraction, an occupancy head for voxel-wise predictions, and a
grounding head to refine localization. Additionally, a 2D grounding module and
a depth estimation module enhance geometric understanding, thereby boosting
model performance. Extensive experiments on the benchmark demonstrate that our
method outperforms existing baselines on 3D occupancy grounding. The dataset is
available at https://github.com/RONINGOD/GroundingOcc.