Mapeo en cualquier lugar (MIA): Potenciando el mapeo de vista aérea utilizando Datos Públicos a Gran Escala
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
July 11, 2024
Autores: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI
Resumen
Las representaciones de Mapas de Vista Aérea (BEV) desde Arriba hacia Abajo son populares para la navegación de robots terrestres debido a su riqueza y flexibilidad para tareas posteriores. Aunque métodos recientes han demostrado promesa en la predicción de mapas BEV a partir de imágenes de Vista en Primera Persona (FPV), su generalizabilidad está limitada a regiones pequeñas capturadas por conjuntos de datos actuales basados en vehículos autónomos. En este contexto, mostramos que un enfoque más escalable hacia la predicción de mapas generalizables puede lograrse utilizando dos plataformas de mapeo de gran escala generadas por la multitud, Mapillary para imágenes FPV y OpenStreetMap para mapas BEV semánticos. Presentamos Map It Anywhere (MIA), un motor de datos que permite la curación y modelado fluido de datos de predicción de mapas etiquetados de plataformas de mapas de código abierto existentes. Utilizando nuestro motor de datos MIA, demostramos la facilidad de recolectar automáticamente un conjunto de datos de 1.2 millones de pares de imágenes FPV y mapas BEV abarcando geografías diversas, paisajes, factores ambientales, modelos de cámaras y escenarios de captura. Posteriormente, entrenamos un modelo simple de cámara agnóstico en este conjunto de datos para la predicción de mapas BEV. Evaluaciones extensas utilizando benchmarks establecidos y nuestro conjunto de datos muestran que los datos curados por MIA permiten un preentrenamiento efectivo para la predicción generalizable de mapas BEV, con un rendimiento de cero disparos que supera en un 35% a los baselines entrenados en conjuntos de datos existentes. Nuestro análisis resalta la promesa de utilizar mapas públicos a gran escala para desarrollar y probar percepciones BEV generalizables, allanando el camino para una navegación autónoma más robusta.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground
robot navigation due to their richness and flexibility for downstream tasks.
While recent methods have shown promise for predicting BEV maps from
First-Person View (FPV) images, their generalizability is limited to small
regions captured by current autonomous vehicle-based datasets. In this context,
we show that a more scalable approach towards generalizable map prediction can
be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary
for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It
Anywhere (MIA), a data engine that enables seamless curation and modeling of
labeled map prediction data from existing open-source map platforms. Using our
MIA data engine, we display the ease of automatically collecting a dataset of
1.2 million pairs of FPV images & BEV maps encompassing diverse geographies,
landscapes, environmental factors, camera models & capture scenarios. We
further train a simple camera model-agnostic model on this data for BEV map
prediction. Extensive evaluations using established benchmarks and our dataset
show that the data curated by MIA enables effective pretraining for
generalizable BEV map prediction, with zero-shot performance far exceeding
baselines trained on existing datasets by 35%. Our analysis highlights the
promise of using large-scale public maps for developing & testing generalizable
BEV perception, paving the way for more robust autonomous navigation.Summary
AI-Generated Summary