Map It Anywhere (MIA): Potenziare la Mappatura in Vista Aerea Utilizzando Dati Pubblici su Larga Scala
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
July 11, 2024
Autori: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI
Abstract
Le mappe in vista dall'alto (Bird's Eye View, BEV) sono una rappresentazione popolare per la navigazione dei robot terrestri grazie alla loro ricchezza e flessibilità per compiti successivi. Sebbene i metodi recenti abbiano mostrato promesse nella previsione di mappe BEV a partire da immagini in prima persona (First-Person View, FPV), la loro generalizzabilità è limitata a piccole regioni catturate dai dataset attuali basati su veicoli autonomi. In questo contesto, dimostriamo che un approccio più scalabile verso la previsione generalizzabile di mappe può essere abilitato utilizzando due piattaforme di mappatura su larga scala basate sul crowdsourcing: Mapillary per le immagini FPV e OpenStreetMap per le mappe semantiche BEV. Introduciamo Map It Anywhere (MIA), un motore di dati che consente la curatela e la modellazione senza soluzione di continuità di dati etichettati per la previsione di mappe a partire da piattaforme di mappatura open-source esistenti. Utilizzando il nostro motore di dati MIA, mostriamo la facilità di raccogliere automaticamente un dataset di 1,2 milioni di coppie di immagini FPV e mappe BEV che coprono geografie, paesaggi, fattori ambientali, modelli di fotocamera e scenari di acquisizione diversi. Addestriamo inoltre un modello semplice, indipendente dal modello di fotocamera, su questi dati per la previsione di mappe BEV. Valutazioni estensive utilizzando benchmark consolidati e il nostro dataset dimostrano che i dati curati da MIA consentono un pre-addestramento efficace per la previsione generalizzabile di mappe BEV, con prestazioni zero-shot che superano di gran lunga i baseline addestrati su dataset esistenti del 35%. La nostra analisi evidenzia il potenziale dell'utilizzo di mappe pubbliche su larga scala per lo sviluppo e il test di percezioni BEV generalizzabili, aprendo la strada a una navigazione autonoma più robusta.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground
robot navigation due to their richness and flexibility for downstream tasks.
While recent methods have shown promise for predicting BEV maps from
First-Person View (FPV) images, their generalizability is limited to small
regions captured by current autonomous vehicle-based datasets. In this context,
we show that a more scalable approach towards generalizable map prediction can
be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary
for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It
Anywhere (MIA), a data engine that enables seamless curation and modeling of
labeled map prediction data from existing open-source map platforms. Using our
MIA data engine, we display the ease of automatically collecting a dataset of
1.2 million pairs of FPV images & BEV maps encompassing diverse geographies,
landscapes, environmental factors, camera models & capture scenarios. We
further train a simple camera model-agnostic model on this data for BEV map
prediction. Extensive evaluations using established benchmarks and our dataset
show that the data curated by MIA enables effective pretraining for
generalizable BEV map prediction, with zero-shot performance far exceeding
baselines trained on existing datasets by 35%. Our analysis highlights the
promise of using large-scale public maps for developing & testing generalizable
BEV perception, paving the way for more robust autonomous navigation.