Постепенный подход от общего к деталям для мультимодального определения 3D-заполнения
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding
August 2, 2025
Авторы: Zhan Shi, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
Аннотация
Визуальное заземление направлено на идентификацию объектов или областей в сцене на основе естественно-языковых описаний, что крайне важно для пространственно осознанного восприятия в автономном вождении. Однако существующие задачи визуального заземления обычно зависят от ограничивающих рамок, которые часто не способны уловить детализированные аспекты. Не все воксели внутри ограничивающей рамки заняты, что приводит к неточным представлениям объектов. Для решения этой проблемы мы представляем бенчмарк для 3D-заземления занятости в сложных уличных сценах. Основанный на наборе данных nuScenes, он интегрирует естественный язык с аннотациями занятости на уровне вокселей, предлагая более точное восприятие объектов по сравнению с традиционной задачей заземления. Кроме того, мы предлагаем GroundingOcc, сквозную модель, разработанную для 3D-заземления занятости через мультимодальное обучение. Она объединяет визуальные, текстовые и точечные облачные признаки для предсказания местоположения объектов и информации о занятости от грубого к детальному. В частности, GroundingOcc включает мультимодальный кодировщик для извлечения признаков, голову занятости для предсказаний на уровне вокселей и голову заземления для уточнения локализации. Дополнительно, модуль 2D-заземления и модуль оценки глубины улучшают геометрическое понимание, тем самым повышая производительность модели. Многочисленные эксперименты на бенчмарке демонстрируют, что наш метод превосходит существующие базовые подходы в 3D-заземлении занятости. Набор данных доступен по адресу https://github.com/RONINGOD/GroundingOcc.
English
Visual grounding aims to identify objects or regions in a scene based on
natural language descriptions, essential for spatially aware perception in
autonomous driving. However, existing visual grounding tasks typically depend
on bounding boxes that often fail to capture fine-grained details. Not all
voxels within a bounding box are occupied, resulting in inaccurate object
representations. To address this, we introduce a benchmark for 3D occupancy
grounding in challenging outdoor scenes. Built on the nuScenes dataset, it
integrates natural language with voxel-level occupancy annotations, offering
more precise object perception compared to the traditional grounding task.
Moreover, we propose GroundingOcc, an end-to-end model designed for 3D
occupancy grounding through multi-modal learning. It combines visual, textual,
and point cloud features to predict object location and occupancy information
from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder
for feature extraction, an occupancy head for voxel-wise predictions, and a
grounding head to refine localization. Additionally, a 2D grounding module and
a depth estimation module enhance geometric understanding, thereby boosting
model performance. Extensive experiments on the benchmark demonstrate that our
method outperforms existing baselines on 3D occupancy grounding. The dataset is
available at https://github.com/RONINGOD/GroundingOcc.