UniDet3D: Многодатасетное обнаружение 3D объектов в помещениях
UniDet3D: Multi-dataset Indoor 3D Object Detection
September 6, 2024
Авторы: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin
cs.AI
Аннотация
Растущий спрос потребителей на интеллектуальные решения в робототехнике и дополненной реальности привлек значительное внимание к обнаружению 3D объектов из облаков точек. Тем не менее, существующие внутренние наборы данных, рассматриваемые индивидуально, слишком малы и недостаточно разнообразны для обучения мощной и общей модели обнаружения 3D объектов. Тем временем, более общие подходы, использующие базовые модели, все еще уступают по качеству тем, основанным на обучении с учителем для конкретной задачи. В данной работе мы предлагаем простую, но эффективную модель обнаружения 3D объектов, которая обучается на смеси внутренних наборов данных и способна работать в различных внутренних средах. Путем объединения различных пространств меток, предлагаемая модель позволяет обучить сильное представление на основе нескольких наборов данных через схему совместного обучения с учителем. Предложенная архитектура сети основана на обычном кодировщике трансформера, что облегчает запуск, настройку и расширение конвейера прогнозирования для практического использования. Обширные эксперименты показывают, что предложенная модель дает значительный прирост по сравнению с существующими методами обнаружения 3D объектов на 6 внутренних бенчмарках: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) и ScanNet++ (+2.7 mAP50). Код доступен по ссылке https://github.com/filapro/unidet3d.
English
Growing customer demand for smart solutions in robotics and augmented reality
has attracted considerable attention to 3D object detection from point clouds.
Yet, existing indoor datasets taken individually are too small and
insufficiently diverse to train a powerful and general 3D object detection
model. In the meantime, more general approaches utilizing foundation models are
still inferior in quality to those based on supervised training for a specific
task. In this work, we propose , a simple yet effective 3D object
detection model, which is trained on a mixture of indoor datasets and is
capable of working in various indoor environments. By unifying different label
spaces, enables learning a strong representation across multiple
datasets through a supervised joint training scheme. The proposed network
architecture is built upon a vanilla transformer encoder, making it easy to
run, customize and extend the prediction pipeline for practical use. Extensive
experiments demonstrate that obtains significant gains over existing 3D
object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50),
ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan
(+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at
https://github.com/filapro/unidet3d .Summary
AI-Generated Summary