ChatPaper.aiChatPaper

Mapeie em Qualquer Lugar (MQL): Capacitando o Mapeamento de Visão Aérea usando Dados Públicos em Grande Escala

Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

July 11, 2024
Autores: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI

Resumo

Mapas de Visão de Pássaro (BEV) de cima para baixo são uma representação popular para a navegação de robôs terrestres devido à sua riqueza e flexibilidade para tarefas subsequentes. Embora métodos recentes tenham mostrado promessa para prever mapas BEV a partir de imagens de Visão em Primeira Pessoa (FPV), sua generalizabilidade é limitada a pequenas regiões capturadas pelos conjuntos de dados atuais baseados em veículos autônomos. Neste contexto, demonstramos que uma abordagem mais escalável para a previsão de mapas generalizáveis pode ser viabilizada pelo uso de duas plataformas de mapeamento de crowdsourcing em larga escala, Mapillary para imagens FPV e OpenStreetMap para mapas semânticos BEV. Apresentamos o Map It Anywhere (MIA), um mecanismo de dados que possibilita a curadoria e modelagem contínuas de dados de previsão de mapas rotulados a partir de plataformas de mapas de código aberto existentes. Utilizando nosso mecanismo de dados MIA, demonstramos a facilidade de coletar automaticamente um conjunto de dados de 1,2 milhão de pares de imagens FPV e mapas BEV abrangendo diversas geografias, paisagens, fatores ambientais, modelos de câmera e cenários de captura. Além disso, treinamos um modelo simples de mapa agnóstico de modelo de câmera com base nesses dados para a previsão de mapas BEV. Avaliações extensivas utilizando benchmarks estabelecidos e nosso conjunto de dados mostram que os dados curados pelo MIA possibilitam o pré-treinamento eficaz para a previsão de mapas BEV generalizáveis, com um desempenho de zero-shot superando significativamente as baselines treinadas em conjuntos de dados existentes em 35%. Nossa análise destaca a promessa do uso de mapas públicos em larga escala para o desenvolvimento e teste de percepção BEV generalizável, abrindo caminho para uma navegação autônoma mais robusta.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.
PDF114November 28, 2024