UniDet3D: 複数のデータセットにおける屋内3D物体検出
UniDet3D: Multi-dataset Indoor 3D Object Detection
September 6, 2024
著者: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin
cs.AI
要旨
ロボティクスと拡張現実におけるスマートソリューションへの顧客需要の増加により、ポイントクラウドからの3Dオブジェクト検出に対する注目が集まっています。しかし、個々に収集された既存の屋内データセットは小さすぎて多様性に欠け、強力で汎用性のある3Dオブジェクト検出モデルをトレーニングするには不十分です。一方で、特定のタスクのための教師付きトレーニングに基づく手法よりも、基盤モデルを利用した一般的なアプローチはまだ品質が劣っています。本研究では、様々な屋内データセットでトレーニングされ、さまざまな屋内環境で動作する能力を持つ、シンプルで効果的な3Dオブジェクト検出モデルを提案します。異なるラベル空間を統一することで、教師付き共同トレーニングスキームを通じて複数のデータセット間で強力な表現を学習することが可能です。提案されたネットワークアーキテクチャは、バニラのトランスフォーマーエンコーダに基づいて構築されており、実用的な使用のために予測パイプラインを簡単に実行、カスタマイズ、拡張することができます。包括的な実験により、既存の3Dオブジェクト検出手法に比べて有意な改善が得られることが示されました。6つの屋内ベンチマークでの結果は、ScanNet(+1.1 mAP50)、ARKitScenes(+19.4 mAP25)、S3DIS(+9.1 mAP50)、MultiScan(+9.3 mAP50)、3RScan(+3.2 mAP50)、ScanNet++(+2.7 mAP50)です。コードはhttps://github.com/filapro/unidet3d で入手可能です。
English
Growing customer demand for smart solutions in robotics and augmented reality
has attracted considerable attention to 3D object detection from point clouds.
Yet, existing indoor datasets taken individually are too small and
insufficiently diverse to train a powerful and general 3D object detection
model. In the meantime, more general approaches utilizing foundation models are
still inferior in quality to those based on supervised training for a specific
task. In this work, we propose , a simple yet effective 3D object
detection model, which is trained on a mixture of indoor datasets and is
capable of working in various indoor environments. By unifying different label
spaces, enables learning a strong representation across multiple
datasets through a supervised joint training scheme. The proposed network
architecture is built upon a vanilla transformer encoder, making it easy to
run, customize and extend the prediction pipeline for practical use. Extensive
experiments demonstrate that obtains significant gains over existing 3D
object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50),
ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan
(+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at
https://github.com/filapro/unidet3d .Summary
AI-Generated Summary