ChatPaper.aiChatPaper

FocalFormer3D: 3D 객체 탐지를 위한 어려운 인스턴스에 초점 맞추기

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

August 8, 2023
저자: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI

초록

3D 물체 탐지에서의 거짓 음성(False Negative, FN), 예를 들어 보행자, 차량 또는 기타 장애물에 대한 예측 누락은 자율 주행에서 잠재적으로 위험한 상황으로 이어질 수 있습니다. 이러한 문제는 치명적임에도 불구하고, 현재 많은 3D 탐지 방법에서 충분히 연구되지 않고 있습니다. 본 연구에서는 Hard Instance Probing(HIP)이라는 일반적인 파이프라인을 제안합니다. 이는 다단계 방식으로 FN을 식별하고 모델이 어려운 사례를 발굴하는 데 집중하도록 유도합니다. 3D 물체 탐지를 위해 이 방법을 FocalFormer3D로 구체화하였으며, 이는 어려운 물체를 발굴하고 예측 재현율을 향상시키는 데 탁월한 성능을 보이는 간단하지만 효과적인 탐지기입니다. FocalFormer3D는 어려운 물체를 발견하기 위한 다단계 쿼리 생성과 대량의 물체 후보군에서 효율적으로 물체를 구별하기 위한 박스 수준의 트랜스포머 디코더를 특징으로 합니다. nuScenes 및 Waymo 데이터셋에서의 실험 결과는 FocalFormer3D의 우수한 성능을 입증합니다. 이러한 장점은 LiDAR 및 다중 모달 설정에서 탐지 및 추적 모두에서 강력한 성능으로 이어집니다. 특히, FocalFormer3D는 nuScenes 탐지 벤치마크에서 70.5 mAP와 73.9 NDS를 달성했으며, nuScenes 추적 벤치마크에서는 72.1 AMOTA를 기록하여 nuScenes LiDAR 리더보드에서 1위를 차지했습니다. 우리의 코드는 https://github.com/NVlabs/FocalFormer3D에서 확인할 수 있습니다.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous situations in autonomous driving. While being fatal, this issue is understudied in many current 3D detection methods. In this work, we propose Hard Instance Probing (HIP), a general pipeline that identifies FN in a multi-stage manner and guides the models to focus on excavating difficult instances. For 3D object detection, we instantiate this method as FocalFormer3D, a simple yet effective detector that excels at excavating difficult objects and improving prediction recall. FocalFormer3D features a multi-stage query generation to discover hard objects and a box-level transformer decoder to efficiently distinguish objects from massive object candidates. Experimental results on the nuScenes and Waymo datasets validate the superior performance of FocalFormer3D. The advantage leads to strong performance on both detection and tracking, in both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR leaderboard. Our code is available at https://github.com/NVlabs/FocalFormer3D.
PDF90December 15, 2024