Map It Anywhere (MIA): Het mogelijk maken van vogelperspectief-mapping met behulp van grootschalige openbare data
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
July 11, 2024
Auteurs: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI
Samenvatting
Top-down Bird's Eye View (BEV) kaarten zijn een populaire representatie voor navigatie van grondrobots vanwege hun rijkdom en flexibiliteit voor downstream taken. Hoewel recente methoden veelbelovend zijn gebleken voor het voorspellen van BEV-kaarten vanuit First-Person View (FPV) beelden, is hun generaliseerbaarheid beperkt tot kleine regio's die worden vastgelegd door huidige datasets gebaseerd op autonome voertuigen. In deze context laten we zien dat een meer schaalbare aanpak voor generaliseerbare kaartvoorspelling mogelijk wordt gemaakt door gebruik te maken van twee grootschalige, door crowdsourcing gegenereerde mappingplatforms: Mapillary voor FPV-beelden en OpenStreetMap voor BEV semantische kaarten. We introduceren Map It Anywhere (MIA), een data-engine die naadloze curatie en modellering van gelabelde kaartvoorspellingsdata mogelijk maakt vanuit bestaande open-source mapplatforms. Met behulp van onze MIA data-engine demonstreren we het gemak van het automatisch verzamelen van een dataset van 1,2 miljoen paren van FPV-beelden en BEV-kaarten, die diverse geografieën, landschappen, omgevingsfactoren, cameramodellen en opnamescenario's omvatten. We trainen verder een eenvoudig cameramodel-agnostisch model op deze data voor BEV-kaartvoorspelling. Uitgebreide evaluaties met behulp van gevestigde benchmarks en onze dataset tonen aan dat de door MIA gecureerde data effectieve pretraining mogelijk maakt voor generaliseerbare BEV-kaartvoorspelling, waarbij de zero-shot prestaties de baseline-modellen die op bestaande datasets zijn getraind, met 35% overtreffen. Onze analyse benadrukt de belofte van het gebruik van grootschalige openbare kaarten voor het ontwikkelen en testen van generaliseerbare BEV-perceptie, wat de weg vrijmaakt voor robuustere autonome navigatie.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground
robot navigation due to their richness and flexibility for downstream tasks.
While recent methods have shown promise for predicting BEV maps from
First-Person View (FPV) images, their generalizability is limited to small
regions captured by current autonomous vehicle-based datasets. In this context,
we show that a more scalable approach towards generalizable map prediction can
be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary
for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It
Anywhere (MIA), a data engine that enables seamless curation and modeling of
labeled map prediction data from existing open-source map platforms. Using our
MIA data engine, we display the ease of automatically collecting a dataset of
1.2 million pairs of FPV images & BEV maps encompassing diverse geographies,
landscapes, environmental factors, camera models & capture scenarios. We
further train a simple camera model-agnostic model on this data for BEV map
prediction. Extensive evaluations using established benchmarks and our dataset
show that the data curated by MIA enables effective pretraining for
generalizable BEV map prediction, with zero-shot performance far exceeding
baselines trained on existing datasets by 35%. Our analysis highlights the
promise of using large-scale public maps for developing & testing generalizable
BEV perception, paving the way for more robust autonomous navigation.