BEVCALIB: Calibración LiDAR-Cámara mediante Representaciones de Vista de Pájaro Guiadas por Geometría

Resumen

La calibración precisa entre LiDAR y cámara es fundamental para fusionar la percepción multimodal en sistemas de conducción autónoma y robótica. Los métodos tradicionales de calibración requieren una extensa recopilación de datos en entornos controlados y no pueden compensar los cambios en la transformación durante el movimiento del vehículo/robot. En este artículo, proponemos el primer modelo que utiliza características de vista de pájaro (BEV) para realizar la calibración entre LiDAR y cámara a partir de datos sin procesar, denominado BEVCALIB. Para lograrlo, extraemos por separado las características BEV de la cámara y del LiDAR, y las fusionamos en un espacio de características BEV compartido. Para aprovechar al máximo la información geométrica de las características BEV, introducimos un nuevo selector de características que filtra las más importantes en el decodificador de transformación, lo que reduce el consumo de memoria y permite un entrenamiento eficiente. Evaluaciones exhaustivas en los conjuntos de datos KITTI, NuScenes y nuestro propio conjunto de datos demuestran que BEVCALIB establece un nuevo estado del arte. Bajo diversas condiciones de ruido, BEVCALIB supera al mejor método de referencia en la literatura en un promedio de (47.08%, 82.32%) en el conjunto de datos KITTI y (78.17%, 68.29%) en el conjunto de datos NuScenes, en términos de (traslación, rotación), respectivamente. En el dominio de código abierto, mejora el mejor método reproducible de referencia en un orden de magnitud. Nuestro código y resultados de demostración están disponibles en https://cisl.ucr.edu/BEVCalib.

English

Accurate LiDAR-camera calibration is fundamental to fusing multi-modal perception in autonomous driving and robotic systems. Traditional calibration methods require extensive data collection in controlled environments and cannot compensate for the transformation changes during the vehicle/robot movement. In this paper, we propose the first model that uses bird's-eye view (BEV) features to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve this, we extract camera BEV features and LiDAR BEV features separately and fuse them into a shared BEV feature space. To fully utilize the geometric information from the BEV feature, we introduce a novel feature selector to filter the most important features in the transformation decoder, which reduces memory consumption and enables efficient training. Extensive evaluations on KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a new state of the art. Under various noise conditions, BEVCALIB outperforms the best baseline in the literature by an average of (47.08%, 82.32%) on KITTI dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation, rotation), respectively. In the open-source domain, it improves the best reproducible baseline by one order of magnitude. Our code and demo results are available at https://cisl.ucr.edu/BEVCalib.

BEVCALIB: Calibración LiDAR-Cámara mediante Representaciones de Vista de Pájaro Guiadas por Geometría

BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

Resumen

Support