ChatPaper.aiChatPaper

BEVCALIB: 기하학적 지도를 활용한 조감도 표현 기반 LiDAR-카메라 캘리브레이션

BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

June 3, 2025
저자: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI

초록

정확한 LiDAR-카메라 보정은 자율 주행 및 로봇 시스템에서 다중 모달 센서 융합의 기초가 됩니다. 기존의 보정 방법은 통제된 환경에서 대량의 데이터 수집을 요구하며, 차량/로봇 이동 중 발생하는 변환 변화를 보정할 수 없습니다. 본 논문에서는 원시 데이터를 이용해 LiDAR-카메라 보정을 수행하는 최초의 모델인 BEVCALIB를 제안합니다. 이를 위해 카메라 BEV(Bird's-Eye View) 특징과 LiDAR BEV 특징을 별도로 추출한 후 공유 BEV 특징 공간에 융합합니다. BEV 특징의 기하학적 정보를 최대한 활용하기 위해, 우리는 변환 디코더에서 가장 중요한 특징을 필터링하는 새로운 특징 선택기를 도입하여 메모리 소비를 줄이고 효율적인 학습을 가능하게 합니다. KITTI, NuScenes 및 자체 데이터셋에서의 광범위한 평가를 통해 BEVCALIB가 새로운 최첨단 기술을 확립함을 입증했습니다. 다양한 노이즈 조건에서 BEVCALIB는 KITTI 데이터셋에서 (47.08%, 82.32%), NuScenes 데이터셋에서 (78.17%, 68.29%)의 평균 (이동, 회전) 성능으로 기존 최고의 베이스라인을 능가했습니다. 오픈소스 영역에서는 재현 가능한 최고의 베이스라인을 한 차원 개선했습니다. 우리의 코드와 데모 결과는 https://cisl.ucr.edu/BEVCalib에서 확인할 수 있습니다.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal perception in autonomous driving and robotic systems. Traditional calibration methods require extensive data collection in controlled environments and cannot compensate for the transformation changes during the vehicle/robot movement. In this paper, we propose the first model that uses bird's-eye view (BEV) features to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve this, we extract camera BEV features and LiDAR BEV features separately and fuse them into a shared BEV feature space. To fully utilize the geometric information from the BEV feature, we introduce a novel feature selector to filter the most important features in the transformation decoder, which reduces memory consumption and enables efficient training. Extensive evaluations on KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a new state of the art. Under various noise conditions, BEVCALIB outperforms the best baseline in the literature by an average of (47.08%, 82.32%) on KITTI dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation, rotation), respectively. In the open-source domain, it improves the best reproducible baseline by one order of magnitude. Our code and demo results are available at https://cisl.ucr.edu/BEVCalib.
PDF22June 6, 2025