FocalFormer3D: Фокусировка на сложных примерах для 3D-обнаружения объектов
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection
August 8, 2023
Авторы: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI
Аннотация
Ложные отрицания (FN) в задачах 3D-детекции объектов, такие как пропущенные предсказания пешеходов, транспортных средств или других препятствий, могут привести к потенциально опасным ситуациям в автономном вождении. Несмотря на критическую важность, эта проблема недостаточно изучена во многих современных методах 3D-детекции. В данной работе мы предлагаем Hard Instance Probing (HIP) — универсальный подход, который выявляет FN в многоэтапной манере и направляет модели на фокусировку на сложных объектах. Для 3D-детекции мы реализуем этот метод в виде FocalFormer3D — простого, но эффективного детектора, который превосходно справляется с обнаружением сложных объектов и повышает полноту предсказаний. FocalFormer3D включает многоэтапную генерацию запросов для обнаружения сложных объектов и декодер на основе трансформера на уровне bounding box, который эффективно отличает объекты среди множества кандидатов. Экспериментальные результаты на наборах данных nuScenes и Waymo подтверждают превосходную производительность FocalFormer3D. Это преимущество приводит к высокой производительности как в задачах детекции, так и трекинга, как в условиях использования только LiDAR, так и в мультимодальных настройках. В частности, FocalFormer3D достигает 70.5 mAP и 73.9 NDS на бенчмарке детекции nuScenes, а на бенчмарке трекинга nuScenes показывает 72.1 AMOTA, занимая первое место в рейтинге LiDAR на nuScenes. Наш код доступен по адресу https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions
of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous
situations in autonomous driving. While being fatal, this issue is understudied
in many current 3D detection methods. In this work, we propose Hard Instance
Probing (HIP), a general pipeline that identifies FN in a multi-stage
manner and guides the models to focus on excavating difficult instances. For 3D
object detection, we instantiate this method as FocalFormer3D, a simple yet
effective detector that excels at excavating difficult objects and improving
prediction recall. FocalFormer3D features a multi-stage query generation to
discover hard objects and a box-level transformer decoder to efficiently
distinguish objects from massive object candidates. Experimental results on the
nuScenes and Waymo datasets validate the superior performance of FocalFormer3D.
The advantage leads to strong performance on both detection and tracking, in
both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP
and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking
benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR
leaderboard. Our code is available at
https://github.com/NVlabs/FocalFormer3D.