Map It Anywhere (MIA): 대규모 공공 데이터를 활용한 조감도 매핑 기능 강화
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
July 11, 2024
저자: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI
초록
탑다운(Top-down) 방식의 조감도(Bird's Eye View, BEV) 맵은 지상 로봇 네비게이션에서 풍부한 정보와 다운스트림 작업에 대한 유연성으로 인해 널리 사용되는 표현 방식입니다. 최근 방법론들은 1인칭 시점(First-Person View, FPV) 이미지에서 BEV 맵을 예측하는 데 유망한 결과를 보여주었지만, 이러한 방법론의 일반화 능력은 현재 자율주행 차량 기반 데이터셋이 포착한 작은 지역에 한정되어 있습니다. 이러한 맥락에서, 우리는 두 가지 대규모 크라우드소싱 매핑 플랫폼인 FPV 이미지를 위한 Mapillary와 BEV 시맨틱 맵을 위한 OpenStreetMap을 사용하여 일반화 가능한 맵 예측을 위한 더 확장 가능한 접근 방식을 제시합니다. 우리는 기존 오픈소스 맵 플랫폼에서 라벨링된 맵 예측 데이터를 원활하게 큐레이션하고 모델링할 수 있는 데이터 엔진인 'Map It Anywhere(MIA)'를 소개합니다. MIA 데이터 엔진을 사용하여 다양한 지리적 환경, 풍경, 환경 요인, 카메라 모델 및 촬영 시나리오를 포함하는 120만 쌍의 FPV 이미지와 BEV 맵 데이터셋을 자동으로 수집하는 용이성을 보여줍니다. 또한, 이 데이터를 사용하여 카메라 모델에 구애받지 않는 간단한 모델을 BEV 맵 예측을 위해 학습시킵니다. 기존 벤치마크와 우리의 데이터셋을 사용한 광범위한 평가 결과, MIA가 큐레이션한 데이터는 일반화 가능한 BEV 맵 예측을 위한 효과적인 사전 학습을 가능하게 하며, 제로샷(zero-shot) 성능이 기존 데이터셋으로 학습된 베이스라인을 35%나 능가함을 보여줍니다. 우리의 분석은 대규모 공개 맵을 사용하여 일반화 가능한 BEV 인식을 개발하고 테스트하는 데 있어 그 가능성을 강조하며, 더 견고한 자율 네비게이션을 위한 길을 열어줍니다.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground
robot navigation due to their richness and flexibility for downstream tasks.
While recent methods have shown promise for predicting BEV maps from
First-Person View (FPV) images, their generalizability is limited to small
regions captured by current autonomous vehicle-based datasets. In this context,
we show that a more scalable approach towards generalizable map prediction can
be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary
for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It
Anywhere (MIA), a data engine that enables seamless curation and modeling of
labeled map prediction data from existing open-source map platforms. Using our
MIA data engine, we display the ease of automatically collecting a dataset of
1.2 million pairs of FPV images & BEV maps encompassing diverse geographies,
landscapes, environmental factors, camera models & capture scenarios. We
further train a simple camera model-agnostic model on this data for BEV map
prediction. Extensive evaluations using established benchmarks and our dataset
show that the data curated by MIA enables effective pretraining for
generalizable BEV map prediction, with zero-shot performance far exceeding
baselines trained on existing datasets by 35%. Our analysis highlights the
promise of using large-scale public maps for developing & testing generalizable
BEV perception, paving the way for more robust autonomous navigation.