BEVCALIB: Calibración LiDAR-Cámara mediante Representaciones de Vista de Pájaro Guiadas por Geometría
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
June 3, 2025
Autores: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI
Resumen
La calibración precisa entre LiDAR y cámara es fundamental para fusionar la percepción multimodal en sistemas de conducción autónoma y robótica. Los métodos tradicionales de calibración requieren una extensa recopilación de datos en entornos controlados y no pueden compensar los cambios en la transformación durante el movimiento del vehículo/robot. En este artículo, proponemos el primer modelo que utiliza características de vista de pájaro (BEV) para realizar la calibración entre LiDAR y cámara a partir de datos sin procesar, denominado BEVCALIB. Para lograrlo, extraemos por separado las características BEV de la cámara y del LiDAR, y las fusionamos en un espacio de características BEV compartido. Para aprovechar al máximo la información geométrica de las características BEV, introducimos un nuevo selector de características que filtra las más importantes en el decodificador de transformación, lo que reduce el consumo de memoria y permite un entrenamiento eficiente. Evaluaciones exhaustivas en los conjuntos de datos KITTI, NuScenes y nuestro propio conjunto de datos demuestran que BEVCALIB establece un nuevo estado del arte. Bajo diversas condiciones de ruido, BEVCALIB supera al mejor método de referencia en la literatura en un promedio de (47.08%, 82.32%) en el conjunto de datos KITTI y (78.17%, 68.29%) en el conjunto de datos NuScenes, en términos de (traslación, rotación), respectivamente. En el dominio de código abierto, mejora el mejor método reproducible de referencia en un orden de magnitud. Nuestro código y resultados de demostración están disponibles en https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal
perception in autonomous driving and robotic systems. Traditional calibration
methods require extensive data collection in controlled environments and cannot
compensate for the transformation changes during the vehicle/robot movement. In
this paper, we propose the first model that uses bird's-eye view (BEV) features
to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve
this, we extract camera BEV features and LiDAR BEV features separately and fuse
them into a shared BEV feature space. To fully utilize the geometric
information from the BEV feature, we introduce a novel feature selector to
filter the most important features in the transformation decoder, which reduces
memory consumption and enables efficient training. Extensive evaluations on
KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a
new state of the art. Under various noise conditions, BEVCALIB outperforms the
best baseline in the literature by an average of (47.08%, 82.32%) on KITTI
dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation,
rotation), respectively. In the open-source domain, it improves the best
reproducible baseline by one order of magnitude. Our code and demo results are
available at https://cisl.ucr.edu/BEVCalib.