BEVCALIB: LiDAR-Camera Kalibratie via Geometrie-Gestuurde Vogelperspectief Representaties
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
June 3, 2025
Auteurs: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI
Samenvatting
Nauwkeurige LiDAR-camera kalibratie is essentieel voor het samenvoegen van multimodale perceptie in autonome voertuigen en robotsystemen. Traditionele kalibratiemethoden vereisen uitgebreide dataverzameling in gecontroleerde omgevingen en kunnen geen rekening houden met transformatieveranderingen tijdens de beweging van het voertuig/de robot. In dit artikel presenteren we het eerste model dat vogelperspectief (BEV) kenmerken gebruikt om LiDAR-camera kalibratie uit te voeren op basis van ruwe data, genaamd BEVCALIB. Om dit te bereiken, extraheren we apart camera BEV kenmerken en LiDAR BEV kenmerken en voegen deze samen in een gedeelde BEV kenmerkruimte. Om de geometrische informatie uit het BEV kenmerk optimaal te benutten, introduceren we een nieuwe kenmerkselector om de belangrijkste kenmerken te filteren in de transformatiedecoder, wat het geheugengebruik vermindert en efficiënte training mogelijk maakt. Uitgebreide evaluaties op KITTI, NuScenes en onze eigen dataset tonen aan dat BEVCALIB een nieuwe standaard zet. Onder verschillende ruisomstandigheden presteert BEVCALIB beter dan de beste baseline in de literatuur met een gemiddelde van (47,08%, 82,32%) op de KITTI dataset, en (78,17%, 68,29%) op de NuScenes dataset, in termen van (translatie, rotatie), respectievelijk. In het open-source domein verbetert het de beste reproduceerbare baseline met een orde van grootte. Onze code en demo-resultaten zijn beschikbaar op https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal
perception in autonomous driving and robotic systems. Traditional calibration
methods require extensive data collection in controlled environments and cannot
compensate for the transformation changes during the vehicle/robot movement. In
this paper, we propose the first model that uses bird's-eye view (BEV) features
to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve
this, we extract camera BEV features and LiDAR BEV features separately and fuse
them into a shared BEV feature space. To fully utilize the geometric
information from the BEV feature, we introduce a novel feature selector to
filter the most important features in the transformation decoder, which reduces
memory consumption and enables efficient training. Extensive evaluations on
KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a
new state of the art. Under various noise conditions, BEVCALIB outperforms the
best baseline in the literature by an average of (47.08%, 82.32%) on KITTI
dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation,
rotation), respectively. In the open-source domain, it improves the best
reproducible baseline by one order of magnitude. Our code and demo results are
available at https://cisl.ucr.edu/BEVCalib.