UniDet3D: Многодатасетное обнаружение 3D объектов в помещениях

Аннотация

Растущий спрос потребителей на интеллектуальные решения в робототехнике и дополненной реальности привлек значительное внимание к обнаружению 3D объектов из облаков точек. Тем не менее, существующие внутренние наборы данных, рассматриваемые индивидуально, слишком малы и недостаточно разнообразны для обучения мощной и общей модели обнаружения 3D объектов. Тем временем, более общие подходы, использующие базовые модели, все еще уступают по качеству тем, основанным на обучении с учителем для конкретной задачи. В данной работе мы предлагаем простую, но эффективную модель обнаружения 3D объектов, которая обучается на смеси внутренних наборов данных и способна работать в различных внутренних средах. Путем объединения различных пространств меток, предлагаемая модель позволяет обучить сильное представление на основе нескольких наборов данных через схему совместного обучения с учителем. Предложенная архитектура сети основана на обычном кодировщике трансформера, что облегчает запуск, настройку и расширение конвейера прогнозирования для практического использования. Обширные эксперименты показывают, что предложенная модель дает значительный прирост по сравнению с существующими методами обнаружения 3D объектов на 6 внутренних бенчмарках: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) и ScanNet++ (+2.7 mAP50). Код доступен по ссылке https://github.com/filapro/unidet3d.

English

Growing customer demand for smart solutions in robotics and augmented reality has attracted considerable attention to 3D object detection from point clouds. Yet, existing indoor datasets taken individually are too small and insufficiently diverse to train a powerful and general 3D object detection model. In the meantime, more general approaches utilizing foundation models are still inferior in quality to those based on supervised training for a specific task. In this work, we propose , a simple yet effective 3D object detection model, which is trained on a mixture of indoor datasets and is capable of working in various indoor environments. By unifying different label spaces, enables learning a strong representation across multiple datasets through a supervised joint training scheme. The proposed network architecture is built upon a vanilla transformer encoder, making it easy to run, customize and extend the prediction pipeline for practical use. Extensive experiments demonstrate that obtains significant gains over existing 3D object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at https://github.com/filapro/unidet3d .

UniDet3D: Многодатасетное обнаружение 3D объектов в помещениях

UniDet3D: Multi-dataset Indoor 3D Object Detection

Аннотация

Support