ChatPaper.aiChatPaper

Karte es überall (KEA): Ermächtigung der Vogelperspektivenkartierung unter Verwendung von Großangelegten öffentlichen Daten

Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

July 11, 2024
Autoren: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI

Zusammenfassung

Top-Down-Bird's-Eye-View (BEV)-Karten sind aufgrund ihrer Vielfalt und Flexibilität für nachgelagerte Aufgaben eine beliebte Darstellung für die Bodenroboter-Navigation. Während neuere Methoden vielversprechend sind, um BEV-Karten aus First-Person-View (FPV)-Bildern vorherzusagen, ist ihre Generalisierbarkeit auf kleine Regionen beschränkt, die von aktuellen autonom fahrenden Fahrzeug-basierten Datensätzen erfasst wurden. In diesem Zusammenhang zeigen wir, dass ein skalierbarerer Ansatz zur generalisierbaren Kartenprädiktion durch die Verwendung von zwei groß angelegten, crowd-sourcenden Kartierungsplattformen ermöglicht werden kann: Mapillary für FPV-Bilder und OpenStreetMap für BEV-semantische Karten. Wir stellen Map It Anywhere (MIA) vor, eine Daten-Engine, die eine nahtlose Kuratierung und Modellierung von gelabelten Kartenprädiktionsdaten aus bestehenden Open-Source-Kartenplattformen ermöglicht. Unter Verwendung unserer MIA-Daten-Engine zeigen wir die Leichtigkeit der automatischen Sammlung eines Datensatzes von 1,2 Millionen Paaren von FPV-Bildern & BEV-Karten, die vielfältige Geografien, Landschaften, Umweltfaktoren, Kameramodelle und Erfassungsszenarien umfassen. Wir trainieren zudem ein einfaches, kameramodellunabhängiges Modell auf diesen Daten für die BEV-Kartenprädiktion. Umfangreiche Evaluationen unter Verwendung etablierter Benchmarks und unseres Datensatzes zeigen, dass die von MIA kuratierten Daten eine effektive Vortrainierung für generalisierbare BEV-Kartenprädiktion ermöglichen, wobei die Zero-Shot-Performance die Baselines, die auf bestehenden Datensätzen trainiert wurden, um 35% übertrifft. Unsere Analyse hebt das Potenzial der Verwendung von groß angelegten öffentlichen Karten für die Entwicklung und Prüfung von generalisierbarer BEV-Wahrnehmung hervor und ebnet den Weg für eine robustere autonome Navigation.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.

Summary

AI-Generated Summary

PDF114November 28, 2024