UniDet3D: 다중 데이터셋 실내 3D 객체 검출
UniDet3D: Multi-dataset Indoor 3D Object Detection
September 6, 2024
저자: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin
cs.AI
초록
로봇 공학 및 증강 현실에서 스마트 솔루션에 대한 고객 수요의 증가로 3D 객체 감지에 대한 주목이 집중되고 있습니다. 그러나 현재의 실내 데이터셋은 개별적으로 취급될 때 너무 작고 다양성이 부족하여 강력하고 일반적인 3D 객체 감지 모델을 훈련시키기에는 부족합니다. 한편, 기초 모델을 활용한 보다 일반적인 접근 방식은 여전히 특정 작업에 대한 지도 학습에 기반한 방법보다 품질이 떨어집니다. 본 연구에서는 실내 데이터셋의 혼합으로 훈련된 간단하면서 효과적인 3D 객체 감지 모델을 제안합니다. 이 모델은 다양한 실내 환경에서 작동할 수 있습니다. 서로 다른 레이블 공간을 통합함으로써, 다중 데이터셋에 걸쳐 강력한 표현을 학습할 수 있도록 하는 지도 합동 훈련 체계를 통해 강화됩니다. 제안된 네트워크 아키텍처는 바닐라 트랜스포머 인코더를 기반으로 구축되어 있어 실행, 사용자 정의 및 실용적인 사용을 위한 예측 파이프라인을 확장하기 쉽습니다. 광범위한 실험 결과, 기존의 3D 객체 감지 방법에 비해 상당한 향상을 보여주며 6개의 실내 벤치마크에서 우수한 성과를 달성했습니다: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), 그리고 ScanNet++ (+2.7 mAP50). 코드는 https://github.com/filapro/unidet3d 에서 확인할 수 있습니다.
English
Growing customer demand for smart solutions in robotics and augmented reality
has attracted considerable attention to 3D object detection from point clouds.
Yet, existing indoor datasets taken individually are too small and
insufficiently diverse to train a powerful and general 3D object detection
model. In the meantime, more general approaches utilizing foundation models are
still inferior in quality to those based on supervised training for a specific
task. In this work, we propose , a simple yet effective 3D object
detection model, which is trained on a mixture of indoor datasets and is
capable of working in various indoor environments. By unifying different label
spaces, enables learning a strong representation across multiple
datasets through a supervised joint training scheme. The proposed network
architecture is built upon a vanilla transformer encoder, making it easy to
run, customize and extend the prediction pipeline for practical use. Extensive
experiments demonstrate that obtains significant gains over existing 3D
object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50),
ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan
(+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at
https://github.com/filapro/unidet3d .Summary
AI-Generated Summary