FocalFormer3D : Concentration sur les instances difficiles pour la détection d'objets 3D
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection
August 8, 2023
papers.authors: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI
papers.abstract
Les faux négatifs (FN) dans la détection d'objets 3D, par exemple, les prédictions manquées de piétons, de véhicules ou d'autres obstacles, peuvent entraîner des situations potentiellement dangereuses dans la conduite autonome. Bien que ce problème soit critique, il est sous-étudié dans de nombreuses méthodes actuelles de détection 3D. Dans ce travail, nous proposons Hard Instance Probing (HIP), un pipeline général qui identifie les FN de manière multi-étapes et guide les modèles à se concentrer sur l'extraction des instances difficiles. Pour la détection d'objets 3D, nous instancions cette méthode sous la forme de FocalFormer3D, un détecteur simple mais efficace qui excelle dans l'extraction d'objets difficiles et l'amélioration du rappel des prédictions. FocalFormer3D se distingue par une génération de requêtes multi-étapes pour découvrir les objets difficiles et un décodeur transformer au niveau des boîtes pour distinguer efficacement les objets parmi un grand nombre de candidats. Les résultats expérimentaux sur les ensembles de données nuScenes et Waymo valident la performance supérieure de FocalFormer3D. Cet avantage se traduit par de solides performances en détection et suivi, dans des configurations LiDAR et multi-modales. Notamment, FocalFormer3D atteint un mAP de 70,5 et un NDS de 73,9 sur le benchmark de détection de nuScenes, tandis que le benchmark de suivi de nuScenes montre un AMOTA de 72,1, se classant tous deux à la première place du classement LiDAR de nuScenes. Notre code est disponible à l'adresse https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions
of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous
situations in autonomous driving. While being fatal, this issue is understudied
in many current 3D detection methods. In this work, we propose Hard Instance
Probing (HIP), a general pipeline that identifies FN in a multi-stage
manner and guides the models to focus on excavating difficult instances. For 3D
object detection, we instantiate this method as FocalFormer3D, a simple yet
effective detector that excels at excavating difficult objects and improving
prediction recall. FocalFormer3D features a multi-stage query generation to
discover hard objects and a box-level transformer decoder to efficiently
distinguish objects from massive object candidates. Experimental results on the
nuScenes and Waymo datasets validate the superior performance of FocalFormer3D.
The advantage leads to strong performance on both detection and tracking, in
both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP
and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking
benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR
leaderboard. Our code is available at
https://github.com/NVlabs/FocalFormer3D.