ChatPaper.aiChatPaper

BEVCALIB: Calibrazione LiDAR-Camera tramite Rappresentazioni a Vista dall'Alto Guidate dalla Geometria

BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

June 3, 2025
Autori: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI

Abstract

La calibrazione accurata tra LiDAR e telecamera è fondamentale per fondere la percezione multi-modale nei sistemi di guida autonoma e robotica. I metodi tradizionali di calibrazione richiedono un'ampia raccolta di dati in ambienti controllati e non sono in grado di compensare i cambiamenti di trasformazione durante il movimento del veicolo/robot. In questo articolo, proponiamo il primo modello che utilizza le caratteristiche della vista dall'alto (BEV) per eseguire la calibrazione LiDAR-telecamera a partire da dati grezzi, denominato BEVCALIB. Per raggiungere questo obiettivo, estraiamo separatamente le caratteristiche BEV della telecamera e del LiDAR e le fondiamo in uno spazio condiviso di caratteristiche BEV. Per sfruttare appieno le informazioni geometriche provenienti dalle caratteristiche BEV, introduciamo un nuovo selettore di caratteristiche per filtrare quelle più importanti nel decodificatore di trasformazione, riducendo così il consumo di memoria e consentendo un addestramento efficiente. Valutazioni estensive su KITTI, NuScenes e il nostro dataset dimostrano che BEVCALIB stabilisce un nuovo stato dell'arte. In varie condizioni di rumore, BEVCALIB supera il miglior baseline della letteratura in media del (47,08%, 82,32%) sul dataset KITTI e del (78,17%, 68,29%) sul dataset NuScenes, in termini di (traslazione, rotazione), rispettivamente. Nel dominio open-source, migliora il miglior baseline riproducibile di un ordine di grandezza. Il nostro codice e i risultati demo sono disponibili all'indirizzo https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal perception in autonomous driving and robotic systems. Traditional calibration methods require extensive data collection in controlled environments and cannot compensate for the transformation changes during the vehicle/robot movement. In this paper, we propose the first model that uses bird's-eye view (BEV) features to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve this, we extract camera BEV features and LiDAR BEV features separately and fuse them into a shared BEV feature space. To fully utilize the geometric information from the BEV feature, we introduce a novel feature selector to filter the most important features in the transformation decoder, which reduces memory consumption and enables efficient training. Extensive evaluations on KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a new state of the art. Under various noise conditions, BEVCALIB outperforms the best baseline in the literature by an average of (47.08%, 82.32%) on KITTI dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation, rotation), respectively. In the open-source domain, it improves the best reproducible baseline by one order of magnitude. Our code and demo results are available at https://cisl.ucr.edu/BEVCalib.
PDF32June 6, 2025