ChatPaper.aiChatPaper

Map It Anywhere (MIA) : Renforcer la cartographie en vue aérienne grâce à l'utilisation de données publiques à grande échelle

Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

July 11, 2024
Auteurs: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI

Résumé

Les cartes en vue de dessus (Bird's Eye View, BEV) sont une représentation populaire pour la navigation des robots terrestres en raison de leur richesse et de leur flexibilité pour les tâches en aval. Bien que des méthodes récentes aient montré des résultats prometteurs pour la prédiction de cartes BEV à partir d'images en vue à la première personne (First-Person View, FPV), leur généralisabilité est limitée à de petites régions capturées par les jeux de données actuels basés sur les véhicules autonomes. Dans ce contexte, nous montrons qu'une approche plus évolutive vers la prédiction de cartes généralisables peut être rendue possible en utilisant deux plateformes de cartographie collaborative à grande échelle : Mapillary pour les images FPV et OpenStreetMap pour les cartes sémantiques BEV. Nous présentons Map It Anywhere (MIA), un moteur de données qui permet la curation et la modélisation fluides de données étiquetées pour la prédiction de cartes à partir de plateformes cartographiques open-source existantes. En utilisant notre moteur de données MIA, nous démontrons la facilité de collecter automatiquement un jeu de données de 1,2 million de paires d'images FPV et de cartes BEV couvrant des géographies, des paysages, des facteurs environnementaux, des modèles de caméra et des scénarios de capture divers. Nous entraînons ensuite un modèle simple, indépendant du modèle de caméra, sur ces données pour la prédiction de cartes BEV. Des évaluations approfondies utilisant des benchmarks établis et notre jeu de données montrent que les données curées par MIA permettent un pré-entraînement efficace pour la prédiction de cartes BEV généralisables, avec des performances en zero-shot dépassant largement les baselines entraînées sur des jeux de données existants de 35 %. Notre analyse met en lumière le potentiel d'utilisation de cartes publiques à grande échelle pour le développement et le test de la perception BEV généralisable, ouvrant la voie à une navigation autonome plus robuste.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.

Summary

AI-Generated Summary

PDF114November 28, 2024