ChatPaper.aiChatPaper

FocalFormer3D: Focando em Instâncias Desafiadoras para Detecção de Objetos 3D

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

August 8, 2023
Autores: Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
cs.AI

Resumo

Falsos negativos (FN) na detecção de objetos 3D, {\em por exemplo}, previsões ausentes de pedestres, veículos ou outros obstáculos, podem levar a situações potencialmente perigosas na condução autônoma. Embora seja um problema crítico, ele é pouco estudado em muitos métodos atuais de detecção 3D. Neste trabalho, propomos o Hard Instance Probing (HIP), um pipeline geral que identifica FN de maneira multiestágio e orienta os modelos a se concentrarem na extração de instâncias difíceis. Para a detecção de objetos 3D, instanciamos esse método como FocalFormer3D, um detector simples, porém eficaz, que se destaca na extração de objetos difíceis e na melhoria da taxa de recall das previsões. O FocalFormer3D apresenta uma geração de consultas multiestágio para descobrir objetos difíceis e um decodificador transformer em nível de caixa para distinguir eficientemente objetos de um grande número de candidatos. Resultados experimentais nos conjuntos de dados nuScenes e Waymo validam o desempenho superior do FocalFormer3D. Essa vantagem resulta em um forte desempenho tanto na detecção quanto no rastreamento, tanto em configurações LiDAR quanto multimodais. Notavelmente, o FocalFormer3D alcança 70,5 mAP e 73,9 NDS no benchmark de detecção do nuScenes, enquanto o benchmark de rastreamento do nuScenes mostra 72,1 AMOTA, ambos ocupando o 1º lugar no leaderboard LiDAR do nuScenes. Nosso código está disponível em https://github.com/NVlabs/FocalFormer3D.
English
False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous situations in autonomous driving. While being fatal, this issue is understudied in many current 3D detection methods. In this work, we propose Hard Instance Probing (HIP), a general pipeline that identifies FN in a multi-stage manner and guides the models to focus on excavating difficult instances. For 3D object detection, we instantiate this method as FocalFormer3D, a simple yet effective detector that excels at excavating difficult objects and improving prediction recall. FocalFormer3D features a multi-stage query generation to discover hard objects and a box-level transformer decoder to efficiently distinguish objects from massive object candidates. Experimental results on the nuScenes and Waymo datasets validate the superior performance of FocalFormer3D. The advantage leads to strong performance on both detection and tracking, in both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR leaderboard. Our code is available at https://github.com/NVlabs/FocalFormer3D.
PDF90December 15, 2024