UniDet3D : Détection d'objets 3D en intérieur multi-ensembles de données
UniDet3D: Multi-dataset Indoor 3D Object Detection
September 6, 2024
Auteurs: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin
cs.AI
Résumé
La demande croissante des clients pour des solutions intelligentes en robotique et en réalité augmentée a attiré une attention considérable sur la détection d'objets 3D à partir de nuages de points. Cependant, les ensembles de données intérieurs existants pris individuellement sont trop petits et insuffisamment diversifiés pour entraîner un modèle de détection d'objets 3D puissant et général. Entre-temps, les approches plus générales utilisant des modèles de base restent de qualité inférieure à celles basées sur un entraînement supervisé pour une tâche spécifique. Dans ce travail, nous proposons un modèle simple mais efficace de détection d'objets 3D, qui est entraîné sur un mélange d'ensembles de données intérieurs et capable de fonctionner dans divers environnements intérieurs. En unifiant différents espaces d'étiquettes, notre modèle permet d'apprendre une représentation solide à travers plusieurs ensembles de données grâce à un schéma d'entraînement conjoint supervisé. L'architecture réseau proposée repose sur un encodeur transformateur vanille, ce qui facilite l'exécution, la personnalisation et l'extension du pipeline de prédiction pour un usage pratique. Des expériences approfondies démontrent que notre modèle obtient des gains significatifs par rapport aux méthodes existantes de détection d'objets 3D dans 6 référentiels intérieurs : ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) et ScanNet++ (+2,7 mAP50). Le code est disponible sur https://github.com/filapro/unidet3d.
English
Growing customer demand for smart solutions in robotics and augmented reality
has attracted considerable attention to 3D object detection from point clouds.
Yet, existing indoor datasets taken individually are too small and
insufficiently diverse to train a powerful and general 3D object detection
model. In the meantime, more general approaches utilizing foundation models are
still inferior in quality to those based on supervised training for a specific
task. In this work, we propose , a simple yet effective 3D object
detection model, which is trained on a mixture of indoor datasets and is
capable of working in various indoor environments. By unifying different label
spaces, enables learning a strong representation across multiple
datasets through a supervised joint training scheme. The proposed network
architecture is built upon a vanilla transformer encoder, making it easy to
run, customize and extend the prediction pipeline for practical use. Extensive
experiments demonstrate that obtains significant gains over existing 3D
object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50),
ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan
(+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at
https://github.com/filapro/unidet3d .Summary
AI-Generated Summary