ChatPaper.aiChatPaper

FocalFormer3D: Concentrarsi sulle istanze difficili per il rilevamento di oggetti 3D

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

August 8, 2023
Autori: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI

Abstract

I falsi negativi (FN) nella rilevazione di oggetti 3D, {\em ad esempio}, previsioni mancate di pedoni, veicoli o altri ostacoli, possono portare a situazioni potenzialmente pericolose nella guida autonoma. Nonostante la sua gravità, questo problema è poco studiato in molti metodi attuali di rilevazione 3D. In questo lavoro, proponiamo Hard Instance Probing (HIP), una pipeline generale che identifica i FN in modo multi-stadio e guida i modelli a concentrarsi sull'individuazione di istanze difficili. Per la rilevazione di oggetti 3D, istanziamo questo metodo come FocalFormer3D, un rilevatore semplice ma efficace che eccelle nell'individuazione di oggetti difficili e nel miglioramento del richiamo delle previsioni. FocalFormer3D presenta una generazione di query multi-stadio per scoprire oggetti difficili e un decoder transformer a livello di box per distinguere efficientemente gli oggetti da un numero massiccio di candidati. I risultati sperimentali sui dataset nuScenes e Waymo convalidano le prestazioni superiori di FocalFormer3D. Questo vantaggio porta a forti prestazioni sia nella rilevazione che nel tracciamento, sia in contesti LiDAR che multi-modali. In particolare, FocalFormer3D raggiunge un mAP di 70.5 e un NDS di 73.9 sul benchmark di rilevazione nuScenes, mentre il benchmark di tracciamento nuScenes mostra un AMOTA di 72.1, entrambi al primo posto nella classifica LiDAR di nuScenes. Il nostro codice è disponibile all'indirizzo https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous situations in autonomous driving. While being fatal, this issue is understudied in many current 3D detection methods. In this work, we propose Hard Instance Probing (HIP), a general pipeline that identifies FN in a multi-stage manner and guides the models to focus on excavating difficult instances. For 3D object detection, we instantiate this method as FocalFormer3D, a simple yet effective detector that excels at excavating difficult objects and improving prediction recall. FocalFormer3D features a multi-stage query generation to discover hard objects and a box-level transformer decoder to efficiently distinguish objects from massive object candidates. Experimental results on the nuScenes and Waymo datasets validate the superior performance of FocalFormer3D. The advantage leads to strong performance on both detection and tracking, in both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR leaderboard. Our code is available at https://github.com/NVlabs/FocalFormer3D.
PDF90December 15, 2024