BEVCALIB: 기하학적 지도를 활용한 조감도 표현 기반 LiDAR-카메라 캘리브레이션
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
June 3, 2025
저자: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI
초록
정확한 LiDAR-카메라 보정은 자율 주행 및 로봇 시스템에서 다중 모달 센서 융합의 기초가 됩니다. 기존의 보정 방법은 통제된 환경에서 대량의 데이터 수집을 요구하며, 차량/로봇 이동 중 발생하는 변환 변화를 보정할 수 없습니다. 본 논문에서는 원시 데이터를 이용해 LiDAR-카메라 보정을 수행하는 최초의 모델인 BEVCALIB를 제안합니다. 이를 위해 카메라 BEV(Bird's-Eye View) 특징과 LiDAR BEV 특징을 별도로 추출한 후 공유 BEV 특징 공간에 융합합니다. BEV 특징의 기하학적 정보를 최대한 활용하기 위해, 우리는 변환 디코더에서 가장 중요한 특징을 필터링하는 새로운 특징 선택기를 도입하여 메모리 소비를 줄이고 효율적인 학습을 가능하게 합니다. KITTI, NuScenes 및 자체 데이터셋에서의 광범위한 평가를 통해 BEVCALIB가 새로운 최첨단 기술을 확립함을 입증했습니다. 다양한 노이즈 조건에서 BEVCALIB는 KITTI 데이터셋에서 (47.08%, 82.32%), NuScenes 데이터셋에서 (78.17%, 68.29%)의 평균 (이동, 회전) 성능으로 기존 최고의 베이스라인을 능가했습니다. 오픈소스 영역에서는 재현 가능한 최고의 베이스라인을 한 차원 개선했습니다. 우리의 코드와 데모 결과는 https://cisl.ucr.edu/BEVCalib에서 확인할 수 있습니다.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal
perception in autonomous driving and robotic systems. Traditional calibration
methods require extensive data collection in controlled environments and cannot
compensate for the transformation changes during the vehicle/robot movement. In
this paper, we propose the first model that uses bird's-eye view (BEV) features
to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve
this, we extract camera BEV features and LiDAR BEV features separately and fuse
them into a shared BEV feature space. To fully utilize the geometric
information from the BEV feature, we introduce a novel feature selector to
filter the most important features in the transformation decoder, which reduces
memory consumption and enables efficient training. Extensive evaluations on
KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a
new state of the art. Under various noise conditions, BEVCALIB outperforms the
best baseline in the literature by an average of (47.08%, 82.32%) on KITTI
dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation,
rotation), respectively. In the open-source domain, it improves the best
reproducible baseline by one order of magnitude. Our code and demo results are
available at https://cisl.ucr.edu/BEVCalib.