FocalFormer3D: Focando em Instâncias Desafiadoras para Detecção de Objetos 3D
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection
August 8, 2023
Autores: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI
Resumo
Falsos negativos (FN) na detecção de objetos 3D, {\em por exemplo}, previsões ausentes de pedestres, veículos ou outros obstáculos, podem levar a situações potencialmente perigosas na condução autônoma. Embora seja um problema crítico, ele é pouco estudado em muitos métodos atuais de detecção 3D. Neste trabalho, propomos o Hard Instance Probing (HIP), um pipeline geral que identifica FN de maneira multiestágio e orienta os modelos a se concentrarem na extração de instâncias difíceis. Para a detecção de objetos 3D, instanciamos esse método como FocalFormer3D, um detector simples, porém eficaz, que se destaca na extração de objetos difíceis e na melhoria da taxa de recall das previsões. O FocalFormer3D apresenta uma geração de consultas multiestágio para descobrir objetos difíceis e um decodificador transformer em nível de caixa para distinguir eficientemente objetos de um grande número de candidatos. Resultados experimentais nos conjuntos de dados nuScenes e Waymo validam o desempenho superior do FocalFormer3D. Essa vantagem resulta em um forte desempenho tanto na detecção quanto no rastreamento, tanto em configurações LiDAR quanto multimodais. Notavelmente, o FocalFormer3D alcança 70,5 mAP e 73,9 NDS no benchmark de detecção do nuScenes, enquanto o benchmark de rastreamento do nuScenes mostra 72,1 AMOTA, ambos ocupando o 1º lugar no leaderboard LiDAR do nuScenes. Nosso código está disponível em https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions
of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous
situations in autonomous driving. While being fatal, this issue is understudied
in many current 3D detection methods. In this work, we propose Hard Instance
Probing (HIP), a general pipeline that identifies FN in a multi-stage
manner and guides the models to focus on excavating difficult instances. For 3D
object detection, we instantiate this method as FocalFormer3D, a simple yet
effective detector that excels at excavating difficult objects and improving
prediction recall. FocalFormer3D features a multi-stage query generation to
discover hard objects and a box-level transformer decoder to efficiently
distinguish objects from massive object candidates. Experimental results on the
nuScenes and Waymo datasets validate the superior performance of FocalFormer3D.
The advantage leads to strong performance on both detection and tracking, in
both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP
and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking
benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR
leaderboard. Our code is available at
https://github.com/NVlabs/FocalFormer3D.