FocalFormer3D: Enfoque en Instancias Difíciles para la Detección de Objetos 3D
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection
August 8, 2023
Autores: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI
Resumen
Los falsos negativos (FN) en la detección de objetos 3D, {\em por ejemplo}, predicciones fallidas de peatones, vehículos u otros obstáculos, pueden llevar a situaciones potencialmente peligrosas en la conducción autónoma. Aunque este problema es crítico, está poco estudiado en muchos de los métodos actuales de detección 3D. En este trabajo, proponemos Hard Instance Probing (HIP), una pipeline general que identifica FN de manera multi-etapa y guía a los modelos a enfocarse en descubrir instancias difíciles. Para la detección de objetos 3D, implementamos este método como FocalFormer3D, un detector simple pero efectivo que sobresale en la identificación de objetos complejos y mejora el recall de las predicciones. FocalFormer3D incluye una generación de consultas multi-etapa para descubrir objetos difíciles y un decodificador transformer a nivel de caja para distinguir eficientemente objetos entre un gran número de candidatos. Los resultados experimentales en los conjuntos de datos nuScenes y Waymo validan el rendimiento superior de FocalFormer3D. Esta ventaja se traduce en un fuerte desempeño tanto en detección como en seguimiento, tanto en configuraciones LiDAR como multi-modales. Destacablemente, FocalFormer3D alcanza un 70.5 mAP y 73.9 NDS en el benchmark de detección de nuScenes, mientras que el benchmark de seguimiento de nuScenes muestra un 72.1 AMOTA, ocupando ambos el primer lugar en la tabla de clasificación LiDAR de nuScenes. Nuestro código está disponible en https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions
of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous
situations in autonomous driving. While being fatal, this issue is understudied
in many current 3D detection methods. In this work, we propose Hard Instance
Probing (HIP), a general pipeline that identifies FN in a multi-stage
manner and guides the models to focus on excavating difficult instances. For 3D
object detection, we instantiate this method as FocalFormer3D, a simple yet
effective detector that excels at excavating difficult objects and improving
prediction recall. FocalFormer3D features a multi-stage query generation to
discover hard objects and a box-level transformer decoder to efficiently
distinguish objects from massive object candidates. Experimental results on the
nuScenes and Waymo datasets validate the superior performance of FocalFormer3D.
The advantage leads to strong performance on both detection and tracking, in
both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP
and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking
benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR
leaderboard. Our code is available at
https://github.com/NVlabs/FocalFormer3D.