Une approche grossière à fine pour l'ancrage multimodal de l'occupation 3D
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding
August 2, 2025
papers.authors: Zhan Shi, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
papers.abstract
L'ancrage visuel vise à identifier des objets ou des régions dans une scène à partir de descriptions en langage naturel, ce qui est essentiel pour une perception spatialement consciente dans la conduite autonome. Cependant, les tâches d'ancrage visuel existantes reposent généralement sur des boîtes englobantes qui échouent souvent à capturer des détails fins. Tous les voxels à l'intérieur d'une boîte englobante ne sont pas occupés, ce qui entraîne des représentations d'objets imprécises. Pour remédier à cela, nous introduisons un benchmark pour l'ancrage d'occupation 3D dans des scènes extérieures complexes. Basé sur le jeu de données nuScenes, il intègre le langage naturel avec des annotations d'occupation au niveau des voxels, offrant une perception d'objet plus précise par rapport à la tâche d'ancrage traditionnelle. De plus, nous proposons GroundingOcc, un modèle end-to-end conçu pour l'ancrage d'occupation 3D grâce à l'apprentissage multimodal. Il combine des caractéristiques visuelles, textuelles et de nuages de points pour prédire la localisation et l'information d'occupation des objets, du grossier au fin. Plus précisément, GroundingOcc comprend un encodeur multimodal pour l'extraction de caractéristiques, une tête d'occupation pour les prédictions voxel par voxel, et une tête d'ancrage pour affiner la localisation. De plus, un module d'ancrage 2D et un module d'estimation de profondeur améliorent la compréhension géométrique, augmentant ainsi les performances du modèle. Des expériences approfondies sur le benchmark démontrent que notre méthode surpasse les baselines existantes en matière d'ancrage d'occupation 3D. Le jeu de données est disponible à l'adresse https://github.com/RONINGOD/GroundingOcc.
English
Visual grounding aims to identify objects or regions in a scene based on
natural language descriptions, essential for spatially aware perception in
autonomous driving. However, existing visual grounding tasks typically depend
on bounding boxes that often fail to capture fine-grained details. Not all
voxels within a bounding box are occupied, resulting in inaccurate object
representations. To address this, we introduce a benchmark for 3D occupancy
grounding in challenging outdoor scenes. Built on the nuScenes dataset, it
integrates natural language with voxel-level occupancy annotations, offering
more precise object perception compared to the traditional grounding task.
Moreover, we propose GroundingOcc, an end-to-end model designed for 3D
occupancy grounding through multi-modal learning. It combines visual, textual,
and point cloud features to predict object location and occupancy information
from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder
for feature extraction, an occupancy head for voxel-wise predictions, and a
grounding head to refine localization. Additionally, a 2D grounding module and
a depth estimation module enhance geometric understanding, thereby boosting
model performance. Extensive experiments on the benchmark demonstrate that our
method outperforms existing baselines on 3D occupancy grounding. The dataset is
available at https://github.com/RONINGOD/GroundingOcc.