UniDet3D: Detecção de Objetos 3D em Ambientes Internos com Múltiplos Conjuntos de Dados

Resumo

A crescente demanda dos clientes por soluções inteligentes em robótica e realidade aumentada tem atraído considerável atenção para a detecção de objetos 3D a partir de nuvens de pontos. No entanto, conjuntos de dados internos existentes, tomados individualmente, são muito pequenos e insuficientemente diversos para treinar um modelo poderoso e geral de detecção de objetos 3D. Enquanto isso, abordagens mais gerais que utilizam modelos fundamentais ainda são inferiores em qualidade àquelas baseadas em treinamento supervisionado para uma tarefa específica. Neste trabalho, propomos um modelo simples, porém eficaz, de detecção de objetos 3D, que é treinado em uma mistura de conjuntos de dados internos e é capaz de funcionar em vários ambientes internos. Ao unificar diferentes espaços de rótulos, o modelo proposto permite aprender uma representação forte em vários conjuntos de dados por meio de um esquema de treinamento conjunto supervisionado. A arquitetura de rede proposta é construída sobre um codificador transformer básico, facilitando a execução, personalização e extensão do pipeline de previsão para uso prático. Experimentos extensivos demonstram que o modelo obtém ganhos significativos em relação aos métodos existentes de detecção de objetos 3D em 6 benchmarks internos: ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) e ScanNet++ (+2,7 mAP50). O código está disponível em https://github.com/filapro/unidet3d.

English

Growing customer demand for smart solutions in robotics and augmented reality has attracted considerable attention to 3D object detection from point clouds. Yet, existing indoor datasets taken individually are too small and insufficiently diverse to train a powerful and general 3D object detection model. In the meantime, more general approaches utilizing foundation models are still inferior in quality to those based on supervised training for a specific task. In this work, we propose , a simple yet effective 3D object detection model, which is trained on a mixture of indoor datasets and is capable of working in various indoor environments. By unifying different label spaces, enables learning a strong representation across multiple datasets through a supervised joint training scheme. The proposed network architecture is built upon a vanilla transformer encoder, making it easy to run, customize and extend the prediction pipeline for practical use. Extensive experiments demonstrate that obtains significant gains over existing 3D object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at https://github.com/filapro/unidet3d .

UniDet3D: Detecção de Objetos 3D em Ambientes Internos com Múltiplos Conjuntos de Dados

UniDet3D: Multi-dataset Indoor 3D Object Detection

Resumo

Support