ChatPaper.aiChatPaper

UniDet3D: 複数のデータセットにおける屋内3D物体検出

UniDet3D: Multi-dataset Indoor 3D Object Detection

September 6, 2024
著者: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin
cs.AI

要旨

ロボティクスと拡張現実におけるスマートソリューションへの顧客需要の増加により、ポイントクラウドからの3Dオブジェクト検出に対する注目が集まっています。しかし、個々に収集された既存の屋内データセットは小さすぎて多様性に欠け、強力で汎用性のある3Dオブジェクト検出モデルをトレーニングするには不十分です。一方で、特定のタスクのための教師付きトレーニングに基づく手法よりも、基盤モデルを利用した一般的なアプローチはまだ品質が劣っています。本研究では、様々な屋内データセットでトレーニングされ、さまざまな屋内環境で動作する能力を持つ、シンプルで効果的な3Dオブジェクト検出モデルを提案します。異なるラベル空間を統一することで、教師付き共同トレーニングスキームを通じて複数のデータセット間で強力な表現を学習することが可能です。提案されたネットワークアーキテクチャは、バニラのトランスフォーマーエンコーダに基づいて構築されており、実用的な使用のために予測パイプラインを簡単に実行、カスタマイズ、拡張することができます。包括的な実験により、既存の3Dオブジェクト検出手法に比べて有意な改善が得られることが示されました。6つの屋内ベンチマークでの結果は、ScanNet(+1.1 mAP50)、ARKitScenes(+19.4 mAP25)、S3DIS(+9.1 mAP50)、MultiScan(+9.3 mAP50)、3RScan(+3.2 mAP50)、ScanNet++(+2.7 mAP50)です。コードはhttps://github.com/filapro/unidet3d で入手可能です。
English
Growing customer demand for smart solutions in robotics and augmented reality has attracted considerable attention to 3D object detection from point clouds. Yet, existing indoor datasets taken individually are too small and insufficiently diverse to train a powerful and general 3D object detection model. In the meantime, more general approaches utilizing foundation models are still inferior in quality to those based on supervised training for a specific task. In this work, we propose , a simple yet effective 3D object detection model, which is trained on a mixture of indoor datasets and is capable of working in various indoor environments. By unifying different label spaces, enables learning a strong representation across multiple datasets through a supervised joint training scheme. The proposed network architecture is built upon a vanilla transformer encoder, making it easy to run, customize and extend the prediction pipeline for practical use. Extensive experiments demonstrate that obtains significant gains over existing 3D object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at https://github.com/filapro/unidet3d .

Summary

AI-Generated Summary

PDF92November 16, 2024