ChatPaper.aiChatPaper

Uma Abordagem de Grosseiro a Refinado para a Ancoragem de Ocupação 3D Multimodal

A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

August 2, 2025
Autores: Zhan Shi, Song Wang, Junbo Chen, Jianke Zhu
cs.AI

Resumo

A fundamentação visual visa identificar objetos ou regiões em uma cena com base em descrições em linguagem natural, sendo essencial para a percepção espacialmente consciente na condução autônoma. No entanto, as tarefas existentes de fundamentação visual geralmente dependem de caixas delimitadoras que frequentemente falham em capturar detalhes refinados. Nem todos os voxels dentro de uma caixa delimitadora estão ocupados, resultando em representações imprecisas de objetos. Para resolver isso, introduzimos um benchmark para fundamentação de ocupação 3D em cenas externas desafiadoras. Construído sobre o conjunto de dados nuScenes, ele integra linguagem natural com anotações de ocupação em nível de voxel, oferecendo uma percepção de objetos mais precisa em comparação com a tarefa tradicional de fundamentação. Além disso, propomos o GroundingOcc, um modelo end-to-end projetado para fundamentação de ocupação 3D por meio de aprendizado multimodal. Ele combina características visuais, textuais e de nuvem de pontos para prever a localização e informações de ocupação de objetos de forma grossa a refinada. Especificamente, o GroundingOcc compreende um codificador multimodal para extração de características, um cabeçalho de ocupação para previsões voxel a voxel e um cabeçalho de fundamentação para refinar a localização. Adicionalmente, um módulo de fundamentação 2D e um módulo de estimativa de profundidade aprimoram o entendimento geométrico, aumentando assim o desempenho do modelo. Experimentos extensivos no benchmark demonstram que nosso método supera as linhas de base existentes na fundamentação de ocupação 3D. O conjunto de dados está disponível em https://github.com/RONINGOD/GroundingOcc.
English
Visual grounding aims to identify objects or regions in a scene based on natural language descriptions, essential for spatially aware perception in autonomous driving. However, existing visual grounding tasks typically depend on bounding boxes that often fail to capture fine-grained details. Not all voxels within a bounding box are occupied, resulting in inaccurate object representations. To address this, we introduce a benchmark for 3D occupancy grounding in challenging outdoor scenes. Built on the nuScenes dataset, it integrates natural language with voxel-level occupancy annotations, offering more precise object perception compared to the traditional grounding task. Moreover, we propose GroundingOcc, an end-to-end model designed for 3D occupancy grounding through multi-modal learning. It combines visual, textual, and point cloud features to predict object location and occupancy information from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder for feature extraction, an occupancy head for voxel-wise predictions, and a grounding head to refine localization. Additionally, a 2D grounding module and a depth estimation module enhance geometric understanding, thereby boosting model performance. Extensive experiments on the benchmark demonstrate that our method outperforms existing baselines on 3D occupancy grounding. The dataset is available at https://github.com/RONINGOD/GroundingOcc.
PDF42August 7, 2025