FocalFormer3D: 3D 객체 탐지를 위한 어려운 인스턴스에 초점 맞추기
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection
August 8, 2023
저자: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI
초록
3D 물체 탐지에서의 거짓 음성(False Negative, FN), 예를 들어 보행자, 차량 또는 기타 장애물에 대한 예측 누락은 자율 주행에서 잠재적으로 위험한 상황으로 이어질 수 있습니다. 이러한 문제는 치명적임에도 불구하고, 현재 많은 3D 탐지 방법에서 충분히 연구되지 않고 있습니다. 본 연구에서는 Hard Instance Probing(HIP)이라는 일반적인 파이프라인을 제안합니다. 이는 다단계 방식으로 FN을 식별하고 모델이 어려운 사례를 발굴하는 데 집중하도록 유도합니다. 3D 물체 탐지를 위해 이 방법을 FocalFormer3D로 구체화하였으며, 이는 어려운 물체를 발굴하고 예측 재현율을 향상시키는 데 탁월한 성능을 보이는 간단하지만 효과적인 탐지기입니다. FocalFormer3D는 어려운 물체를 발견하기 위한 다단계 쿼리 생성과 대량의 물체 후보군에서 효율적으로 물체를 구별하기 위한 박스 수준의 트랜스포머 디코더를 특징으로 합니다. nuScenes 및 Waymo 데이터셋에서의 실험 결과는 FocalFormer3D의 우수한 성능을 입증합니다. 이러한 장점은 LiDAR 및 다중 모달 설정에서 탐지 및 추적 모두에서 강력한 성능으로 이어집니다. 특히, FocalFormer3D는 nuScenes 탐지 벤치마크에서 70.5 mAP와 73.9 NDS를 달성했으며, nuScenes 추적 벤치마크에서는 72.1 AMOTA를 기록하여 nuScenes LiDAR 리더보드에서 1위를 차지했습니다. 우리의 코드는 https://github.com/NVlabs/FocalFormer3D에서 확인할 수 있습니다.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions
of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous
situations in autonomous driving. While being fatal, this issue is understudied
in many current 3D detection methods. In this work, we propose Hard Instance
Probing (HIP), a general pipeline that identifies FN in a multi-stage
manner and guides the models to focus on excavating difficult instances. For 3D
object detection, we instantiate this method as FocalFormer3D, a simple yet
effective detector that excels at excavating difficult objects and improving
prediction recall. FocalFormer3D features a multi-stage query generation to
discover hard objects and a box-level transformer decoder to efficiently
distinguish objects from massive object candidates. Experimental results on the
nuScenes and Waymo datasets validate the superior performance of FocalFormer3D.
The advantage leads to strong performance on both detection and tracking, in
both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP
and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking
benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR
leaderboard. Our code is available at
https://github.com/NVlabs/FocalFormer3D.