ChatPaper.aiChatPaper

FocalFormer3D: Fokussierung auf schwierige Instanzen für die 3D-Objekterkennung

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

August 8, 2023
papers.authors: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI

papers.abstract

False Negatives (FN) in der 3D-Objekterkennung, {\em z.B.}, fehlende Vorhersagen von Fußgängern, Fahrzeugen oder anderen Hindernissen, können in der autonomen Fahrzeugführung zu potenziell gefährlichen Situationen führen. Obwohl dieses Problem kritisch ist, wird es in vielen aktuellen 3D-Erkennungsmethoden nicht ausreichend untersucht. In dieser Arbeit schlagen wir Hard Instance Probing (HIP) vor, eine allgemeine Pipeline, die FN in mehreren Stufen identifiziert und die Modelle dazu anleitet, sich auf die Erkennung schwieriger Instanzen zu konzentrieren. Für die 3D-Objekterkennung implementieren wir diese Methode als FocalFormer3D, einen einfachen, aber effektiven Detektor, der sich besonders gut darin auszeichnet, schwierige Objekte zu erkennen und die Vorhersagegenauigkeit zu verbessern. FocalFormer3D zeichnet sich durch eine mehrstufige Abfragegenerierung zur Entdeckung schwer erkennbarer Objekte und einen Box-Level-Transformer-Decoder aus, der effizient Objekte aus einer großen Anzahl von Kandidaten unterscheidet. Experimentelle Ergebnisse auf den nuScenes- und Waymo-Datensätzen bestätigen die überlegene Leistung von FocalFormer3D. Dieser Vorteil führt zu starken Ergebnissen sowohl in der Erkennung als auch im Tracking, sowohl in LiDAR- als auch in multimodalen Einstellungen. Bemerkenswert ist, dass FocalFormer3D auf dem nuScenes-Erkennungsbenchmark einen mAP von 70,5 und einen NDS von 73,9 erreicht, während der nuScenes-Tracking-Benchmark einen AMOTA von 72,1 zeigt, was beide den ersten Platz auf der nuScenes-LiDAR-Rangliste belegt. Unser Code ist verfügbar unter https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous situations in autonomous driving. While being fatal, this issue is understudied in many current 3D detection methods. In this work, we propose Hard Instance Probing (HIP), a general pipeline that identifies FN in a multi-stage manner and guides the models to focus on excavating difficult instances. For 3D object detection, we instantiate this method as FocalFormer3D, a simple yet effective detector that excels at excavating difficult objects and improving prediction recall. FocalFormer3D features a multi-stage query generation to discover hard objects and a box-level transformer decoder to efficiently distinguish objects from massive object candidates. Experimental results on the nuScenes and Waymo datasets validate the superior performance of FocalFormer3D. The advantage leads to strong performance on both detection and tracking, in both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR leaderboard. Our code is available at https://github.com/NVlabs/FocalFormer3D.
PDF90December 15, 2024