BEVCALIB: Калибровка LiDAR и камеры с использованием геометрически направленных представлений вида с высоты птичьего полета
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations
June 3, 2025
Авторы: Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu
cs.AI
Аннотация
Точная калибровка LiDAR и камеры является основополагающей для объединения мультимодального восприятия в системах автономного вождения и робототехники. Традиционные методы калибровки требуют обширного сбора данных в контролируемых условиях и не способны компенсировать изменения преобразований во время движения транспортного средства или робота. В данной статье мы предлагаем первую модель, использующую признаки вида с высоты птичьего полета (BEV) для выполнения калибровки LiDAR и камеры на основе исходных данных, названную BEVCALIB. Для этого мы отдельно извлекаем BEV-признаки камеры и LiDAR, а затем объединяем их в общее BEV-пространство признаков. Чтобы полностью использовать геометрическую информацию из BEV-признаков, мы вводим новый селектор признаков, который фильтрует наиболее важные признаки в декодере преобразований, что снижает потребление памяти и обеспечивает эффективное обучение. Обширные оценки на наборах данных KITTI, NuScenes и нашем собственном наборе данных демонстрируют, что BEVCALIB устанавливает новый уровень состояния искусства. При различных условиях шума BEVCALIB превосходит лучший базовый метод в литературе в среднем на (47,08%, 82,32%) на наборе данных KITTI и на (78,17%, 68,29%) на наборе данных NuScenes, в терминах (смещение, вращение), соответственно. В открытой области она улучшает лучший воспроизводимый базовый метод на порядок величины. Наш код и демонстрационные результаты доступны по адресу https://cisl.ucr.edu/BEVCalib.
English
Accurate LiDAR-camera calibration is fundamental to fusing multi-modal
perception in autonomous driving and robotic systems. Traditional calibration
methods require extensive data collection in controlled environments and cannot
compensate for the transformation changes during the vehicle/robot movement. In
this paper, we propose the first model that uses bird's-eye view (BEV) features
to perform LiDAR camera calibration from raw data, termed BEVCALIB. To achieve
this, we extract camera BEV features and LiDAR BEV features separately and fuse
them into a shared BEV feature space. To fully utilize the geometric
information from the BEV feature, we introduce a novel feature selector to
filter the most important features in the transformation decoder, which reduces
memory consumption and enables efficient training. Extensive evaluations on
KITTI, NuScenes, and our own dataset demonstrate that BEVCALIB establishes a
new state of the art. Under various noise conditions, BEVCALIB outperforms the
best baseline in the literature by an average of (47.08%, 82.32%) on KITTI
dataset, and (78.17%, 68.29%) on NuScenes dataset, in terms of (translation,
rotation), respectively. In the open-source domain, it improves the best
reproducible baseline by one order of magnitude. Our code and demo results are
available at https://cisl.ucr.edu/BEVCalib.