UniDet3D: Detecção de Objetos 3D em Ambientes Internos com Múltiplos Conjuntos de Dados
UniDet3D: Multi-dataset Indoor 3D Object Detection
September 6, 2024
Autores: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin
cs.AI
Resumo
A crescente demanda dos clientes por soluções inteligentes em robótica e realidade aumentada tem atraído considerável atenção para a detecção de objetos 3D a partir de nuvens de pontos. No entanto, conjuntos de dados internos existentes, tomados individualmente, são muito pequenos e insuficientemente diversos para treinar um modelo poderoso e geral de detecção de objetos 3D. Enquanto isso, abordagens mais gerais que utilizam modelos fundamentais ainda são inferiores em qualidade àquelas baseadas em treinamento supervisionado para uma tarefa específica. Neste trabalho, propomos um modelo simples, porém eficaz, de detecção de objetos 3D, que é treinado em uma mistura de conjuntos de dados internos e é capaz de funcionar em vários ambientes internos. Ao unificar diferentes espaços de rótulos, o modelo proposto permite aprender uma representação forte em vários conjuntos de dados por meio de um esquema de treinamento conjunto supervisionado. A arquitetura de rede proposta é construída sobre um codificador transformer básico, facilitando a execução, personalização e extensão do pipeline de previsão para uso prático. Experimentos extensivos demonstram que o modelo obtém ganhos significativos em relação aos métodos existentes de detecção de objetos 3D em 6 benchmarks internos: ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) e ScanNet++ (+2,7 mAP50). O código está disponível em https://github.com/filapro/unidet3d.
English
Growing customer demand for smart solutions in robotics and augmented reality
has attracted considerable attention to 3D object detection from point clouds.
Yet, existing indoor datasets taken individually are too small and
insufficiently diverse to train a powerful and general 3D object detection
model. In the meantime, more general approaches utilizing foundation models are
still inferior in quality to those based on supervised training for a specific
task. In this work, we propose , a simple yet effective 3D object
detection model, which is trained on a mixture of indoor datasets and is
capable of working in various indoor environments. By unifying different label
spaces, enables learning a strong representation across multiple
datasets through a supervised joint training scheme. The proposed network
architecture is built upon a vanilla transformer encoder, making it easy to
run, customize and extend the prediction pipeline for practical use. Extensive
experiments demonstrate that obtains significant gains over existing 3D
object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50),
ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan
(+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at
https://github.com/filapro/unidet3d .Summary
AI-Generated Summary