ChatPaper.aiChatPaper

BEVCALIB : Calibration LiDAR-Caméra via des Représentations en Vue de Dessus Guidées par la Géométrie

BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

June 3, 2025
Auteurs: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI

Résumé

Une calibration précise entre LiDAR et caméra est fondamentale pour fusionner la perception multi-modale dans les systèmes de conduite autonome et robotique. Les méthodes de calibration traditionnelles nécessitent une collecte extensive de données dans des environnements contrôlés et ne peuvent pas compenser les changements de transformation pendant le mouvement du véhicule/robot. Dans cet article, nous proposons le premier modèle qui utilise des caractéristiques en vue de dessus (BEV) pour effectuer la calibration LiDAR-caméra à partir de données brutes, nommé BEVCALIB. Pour y parvenir, nous extrayons séparément les caractéristiques BEV de la caméra et celles du LiDAR, puis les fusionnons dans un espace de caractéristiques BEV partagé. Pour exploiter pleinement l'information géométrique des caractéristiques BEV, nous introduisons un nouveau sélecteur de caractéristiques pour filtrer les caractéristiques les plus importantes dans le décodeur de transformation, ce qui réduit la consommation de mémoire et permet un entraînement efficace. Des évaluations approfondies sur les jeux de données KITTI, NuScenes et notre propre ensemble de données démontrent que BEVCALIB établit un nouvel état de l'art. Dans diverses conditions de bruit, BEVCALIB surpasse la meilleure référence de la littérature en moyenne de (47,08 %, 82,32 %) sur le jeu de données KITTI, et de (78,17 %, 68,29 %) sur le jeu de données NuScenes, en termes de (translation, rotation), respectivement. Dans le domaine open-source, il améliore la meilleure référence reproductible d'un ordre de grandeur. Notre code et les résultats de démonstration sont disponibles à l'adresse https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal perception in autonomous driving and robotic systems. Traditional calibration methods require extensive data collection in controlled environments and cannot compensate for the transformation changes during the vehicle/robot movement. In this paper, we propose the first model that uses bird's-eye view (BEV) features to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve this, we extract camera BEV features and LiDAR BEV features separately and fuse them into a shared BEV feature space. To fully utilize the geometric information from the BEV feature, we introduce a novel feature selector to filter the most important features in the transformation decoder, which reduces memory consumption and enables efficient training. Extensive evaluations on KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a new state of the art. Under various noise conditions, BEVCALIB outperforms the best baseline in the literature by an average of (47.08%, 82.32%) on KITTI dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation, rotation), respectively. In the open-source domain, it improves the best reproducible baseline by one order of magnitude. Our code and demo results are available at https://cisl.ucr.edu/BEVCalib.
PDF22June 6, 2025