Une approche grossière à fine pour l'ancrage multimodal de l'occupation 3D

papers.abstract

L'ancrage visuel vise à identifier des objets ou des régions dans une scène à partir de descriptions en langage naturel, ce qui est essentiel pour une perception spatialement consciente dans la conduite autonome. Cependant, les tâches d'ancrage visuel existantes reposent généralement sur des boîtes englobantes qui échouent souvent à capturer des détails fins. Tous les voxels à l'intérieur d'une boîte englobante ne sont pas occupés, ce qui entraîne des représentations d'objets imprécises. Pour remédier à cela, nous introduisons un benchmark pour l'ancrage d'occupation 3D dans des scènes extérieures complexes. Basé sur le jeu de données nuScenes, il intègre le langage naturel avec des annotations d'occupation au niveau des voxels, offrant une perception d'objet plus précise par rapport à la tâche d'ancrage traditionnelle. De plus, nous proposons GroundingOcc, un modèle end-to-end conçu pour l'ancrage d'occupation 3D grâce à l'apprentissage multimodal. Il combine des caractéristiques visuelles, textuelles et de nuages de points pour prédire la localisation et l'information d'occupation des objets, du grossier au fin. Plus précisément, GroundingOcc comprend un encodeur multimodal pour l'extraction de caractéristiques, une tête d'occupation pour les prédictions voxel par voxel, et une tête d'ancrage pour affiner la localisation. De plus, un module d'ancrage 2D et un module d'estimation de profondeur améliorent la compréhension géométrique, augmentant ainsi les performances du modèle. Des expériences approfondies sur le benchmark démontrent que notre méthode surpasse les baselines existantes en matière d'ancrage d'occupation 3D. Le jeu de données est disponible à l'adresse https://github.com/RONINGOD/GroundingOcc.

English

Visual grounding aims to identify objects or regions in a scene based on natural language descriptions, essential for spatially aware perception in autonomous driving. However, existing visual grounding tasks typically depend on bounding boxes that often fail to capture fine-grained details. Not all voxels within a bounding box are occupied, resulting in inaccurate object representations. To address this, we introduce a benchmark for 3D occupancy grounding in challenging outdoor scenes. Built on the nuScenes dataset, it integrates natural language with voxel-level occupancy annotations, offering more precise object perception compared to the traditional grounding task. Moreover, we propose GroundingOcc, an end-to-end model designed for 3D occupancy grounding through multi-modal learning. It combines visual, textual, and point cloud features to predict object location and occupancy information from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder for feature extraction, an occupancy head for voxel-wise predictions, and a grounding head to refine localization. Additionally, a 2D grounding module and a depth estimation module enhance geometric understanding, thereby boosting model performance. Extensive experiments on the benchmark demonstrate that our method outperforms existing baselines on 3D occupancy grounding. The dataset is available at https://github.com/RONINGOD/GroundingOcc.

Une approche grossière à fine pour l'ancrage multimodal de l'occupation 3D

A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

papers.abstract

Support