BEVCALIB: LiDAR-Kamera-Kalibrierung durch geometriegeführte Vogelperspektiv-Darstellungen
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
June 3, 2025
Autoren: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI
Zusammenfassung
Eine präzise LiDAR-Kamera-Kalibrierung ist grundlegend für die Fusion multimodaler Wahrnehmung in autonomen Fahrzeugen und Robotersystemen. Traditionelle Kalibrierungsmethoden erfordern eine umfangreiche Datenerfassung in kontrollierten Umgebungen und können Transformationsänderungen während der Bewegung des Fahrzeugs/Roboters nicht ausgleichen. In diesem Artikel präsentieren wir das erste Modell, das Vogelperspektiven-Features (BEV) verwendet, um die LiDAR-Kamera-Kalibrierung aus Rohdaten durchzuführen, genannt BEVCALIB. Um dies zu erreichen, extrahieren wir Kamera-BEV-Features und LiDAR-BEV-Features separat und fusionieren sie in einem gemeinsamen BEV-Feature-Raum. Um die geometrischen Informationen aus den BEV-Features vollständig zu nutzen, führen wir einen neuartigen Feature-Selektor ein, der die wichtigsten Features im Transformations-Decoder filtert, was den Speicherverbrauch reduziert und ein effizientes Training ermöglicht. Umfangreiche Auswertungen auf den Datensätzen KITTI, NuScenes und unserem eigenen Datensatz zeigen, dass BEVCALIB einen neuen Stand der Technik etabliert. Unter verschiedenen Rauschbedingungen übertrifft BEVCALIB die beste Baseline in der Literatur im Durchschnitt um (47,08 %, 82,32 %) auf dem KITTI-Datensatz und (78,17 %, 68,29 %) auf dem NuScenes-Datensatz in Bezug auf (Translation, Rotation). Im Open-Source-Bereich verbessert es die beste reproduzierbare Baseline um eine Größenordnung. Unser Code und Demo-Ergebnisse sind verfügbar unter https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal
perception in autonomous driving and robotic systems. Traditional calibration
methods require extensive data collection in controlled environments and cannot
compensate for the transformation changes during the vehicle/robot movement. In
this paper, we propose the first model that uses bird's-eye view (BEV) features
to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve
this, we extract camera BEV features and LiDAR BEV features separately and fuse
them into a shared BEV feature space. To fully utilize the geometric
information from the BEV feature, we introduce a novel feature selector to
filter the most important features in the transformation decoder, which reduces
memory consumption and enables efficient training. Extensive evaluations on
KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a
new state of the art. Under various noise conditions, BEVCALIB outperforms the
best baseline in the literature by an average of (47.08%, 82.32%) on KITTI
dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation,
rotation), respectively. In the open-source domain, it improves the best
reproducible baseline by one order of magnitude. Our code and demo results are
available at https://cisl.ucr.edu/BEVCalib.