FocalFormer3D : Concentration sur les instances difficiles pour la détection d'objets 3D

papers.abstract

Les faux négatifs (FN) dans la détection d'objets 3D, par exemple, les prédictions manquées de piétons, de véhicules ou d'autres obstacles, peuvent entraîner des situations potentiellement dangereuses dans la conduite autonome. Bien que ce problème soit critique, il est sous-étudié dans de nombreuses méthodes actuelles de détection 3D. Dans ce travail, nous proposons Hard Instance Probing (HIP), un pipeline général qui identifie les FN de manière multi-étapes et guide les modèles à se concentrer sur l'extraction des instances difficiles. Pour la détection d'objets 3D, nous instancions cette méthode sous la forme de FocalFormer3D, un détecteur simple mais efficace qui excelle dans l'extraction d'objets difficiles et l'amélioration du rappel des prédictions. FocalFormer3D se distingue par une génération de requêtes multi-étapes pour découvrir les objets difficiles et un décodeur transformer au niveau des boîtes pour distinguer efficacement les objets parmi un grand nombre de candidats. Les résultats expérimentaux sur les ensembles de données nuScenes et Waymo valident la performance supérieure de FocalFormer3D. Cet avantage se traduit par de solides performances en détection et suivi, dans des configurations LiDAR et multi-modales. Notamment, FocalFormer3D atteint un mAP de 70,5 et un NDS de 73,9 sur le benchmark de détection de nuScenes, tandis que le benchmark de suivi de nuScenes montre un AMOTA de 72,1, se classant tous deux à la première place du classement LiDAR de nuScenes. Notre code est disponible à l'adresse https://github.com/NVlabs/FocalFormer3D.

English

False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous situations in autonomous driving. While being fatal, this issue is understudied in many current 3D detection methods. In this work, we propose Hard Instance Probing (HIP), a general pipeline that identifies FN in a multi-stage manner and guides the models to focus on excavating difficult instances. For 3D object detection, we instantiate this method as FocalFormer3D, a simple yet effective detector that excels at excavating difficult objects and improving prediction recall. FocalFormer3D features a multi-stage query generation to discover hard objects and a box-level transformer decoder to efficiently distinguish objects from massive object candidates. Experimental results on the nuScenes and Waymo datasets validate the superior performance of FocalFormer3D. The advantage leads to strong performance on both detection and tracking, in both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR leaderboard. Our code is available at https://github.com/NVlabs/FocalFormer3D.

FocalFormer3D : Concentration sur les instances difficiles pour la détection d'objets 3D

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

papers.abstract

Support