FocalFormer3D: Focus op moeilijke gevallen voor 3D-objectdetectie
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection
August 8, 2023
Auteurs: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI
Samenvatting
False negatives (FN) in 3D-objectdetectie, zoals het missen van voorspellingen van voetgangers, voertuigen of andere obstakels, kunnen leiden tot potentieel gevaarlijke situaties in autonoom rijden. Hoewel dit een kritiek probleem is, wordt het in veel huidige 3D-detectiemethoden onvoldoende onderzocht. In dit werk stellen we Hard Instance Probing (HIP) voor, een algemene pipeline die FN op een meerfasige manier identificeert en modellen begeleidt om zich te richten op het opsporen van moeilijke instanties. Voor 3D-objectdetectie concretiseren we deze methode als FocalFormer3D, een eenvoudige maar effectieve detector die uitblinkt in het opsporen van moeilijke objecten en het verbeteren van de voorspellingsherinnering. FocalFormer3D kenmerkt zich door een meerfasige querygeneratie om moeilijke objecten te ontdekken en een box-level transformerdecoder om efficiënt objecten te onderscheiden uit een groot aantal objectkandidaten. Experimentele resultaten op de nuScenes- en Waymo-datasets valideren de superieure prestaties van FocalFormer3D. Dit voordeel leidt tot sterke prestaties op zowel detectie als tracking, in zowel LiDAR- als multimodale instellingen. Opmerkelijk is dat FocalFormer3D een 70,5 mAP en 73,9 NDS behaalt op de nuScenes-detectiebenchmark, terwijl de nuScenes-trackingbenchmark een 72,1 AMOTA laat zien, waarmee beide de eerste plaats innemen op de nuScenes LiDAR-leaderboard. Onze code is beschikbaar op https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions
of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous
situations in autonomous driving. While being fatal, this issue is understudied
in many current 3D detection methods. In this work, we propose Hard Instance
Probing (HIP), a general pipeline that identifies FN in a multi-stage
manner and guides the models to focus on excavating difficult instances. For 3D
object detection, we instantiate this method as FocalFormer3D, a simple yet
effective detector that excels at excavating difficult objects and improving
prediction recall. FocalFormer3D features a multi-stage query generation to
discover hard objects and a box-level transformer decoder to efficiently
distinguish objects from massive object candidates. Experimental results on the
nuScenes and Waymo datasets validate the superior performance of FocalFormer3D.
The advantage leads to strong performance on both detection and tracking, in
both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP
and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking
benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR
leaderboard. Our code is available at
https://github.com/NVlabs/FocalFormer3D.