BEVCALIB: Calibração LiDAR-Câmera por meio de Representações em Visão de Pássaro Guiada por Geometria
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
June 3, 2025
Autores: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI
Resumo
A calibração precisa entre LiDAR e câmera é fundamental para a fusão de percepção multimodal em sistemas de condução autônoma e robóticos. Os métodos tradicionais de calibração exigem coleta extensiva de dados em ambientes controlados e não conseguem compensar as mudanças de transformação durante o movimento do veículo/robô. Neste artigo, propomos o primeiro modelo que utiliza características de visão de cima (BEV) para realizar a calibração LiDAR-câmera a partir de dados brutos, denominado BEVCALIB. Para isso, extraímos separadamente as características BEV da câmera e do LiDAR e as fundimos em um espaço de características BEV compartilhado. Para aproveitar ao máximo as informações geométricas das características BEV, introduzimos um novo seletor de características para filtrar as mais importantes no decodificador de transformação, o que reduz o consumo de memória e permite um treinamento eficiente. Avaliações extensivas nos conjuntos de dados KITTI, NuScenes e nosso próprio conjunto de dados demonstram que o BEVCALIB estabelece um novo estado da arte. Sob várias condições de ruído, o BEVCALIB supera a melhor linha de base da literatura em média (47,08%, 82,32%) no conjunto de dados KITTI e (78,17%, 68,29%) no conjunto de dados NuScenes, em termos de (translação, rotação), respectivamente. No domínio de código aberto, ele melhora a melhor linha de base reproduzível em uma ordem de magnitude. Nosso código e resultados de demonstração estão disponíveis em https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal
perception in autonomous driving and robotic systems. Traditional calibration
methods require extensive data collection in controlled environments and cannot
compensate for the transformation changes during the vehicle/robot movement. In
this paper, we propose the first model that uses bird's-eye view (BEV) features
to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve
this, we extract camera BEV features and LiDAR BEV features separately and fuse
them into a shared BEV feature space. To fully utilize the geometric
information from the BEV feature, we introduce a novel feature selector to
filter the most important features in the transformation decoder, which reduces
memory consumption and enables efficient training. Extensive evaluations on
KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a
new state of the art. Under various noise conditions, BEVCALIB outperforms the
best baseline in the literature by an average of (47.08%, 82.32%) on KITTI
dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation,
rotation), respectively. In the open-source domain, it improves the best
reproducible baseline by one order of magnitude. Our code and demo results are
available at https://cisl.ucr.edu/BEVCalib.