Картирование взгляда сверху (MIA): Усиление создания карт с использованием общедоступных данных большого масштаба

Аннотация

Карты сверху вниз (Bird's Eye View, BEV) являются популярным представлением для навигации наземных роботов благодаря их информативности и гибкости для последующих задач. В то время как недавние методы показали потенциал в предсказании карт BEV по изображениям от первого лица (First-Person View, FPV), их обобщаемость ограничена маленькими регионами, охваченными текущими наборами данных автономных транспортных средств. В этом контексте мы показываем, что более масштабный подход к обобщаемому предсказанию карт может быть реализован с использованием двух крупномасштабных платформ с картографическими данными, Mapillary для изображений FPV и OpenStreetMap для семантических карт BEV. Мы представляем Map It Anywhere (MIA), движок данных, который обеспечивает безупречную кураторскую работу и моделирование помеченных данных предсказания карт из существующих открытых картографических платформ. Используя наш движок данных MIA, мы демонстрируем легкость автоматического сбора набора данных из 1,2 миллиона пар изображений FPV и карт BEV, охватывающих разнообразные географии, ландшафты, окружающие факторы, модели камер и сценарии съемки. Мы также обучаем простую модель, не зависящую от модели камеры, на этих данных для предсказания карт BEV. Обширные оценки с использованием установленных бенчмарков и нашего набора данных показывают, что данные, собранные MIA, обеспечивают эффективное предварительное обучение для обобщаемого предсказания карт BEV, с производительностью "нулевого сэмпла", превосходящей базовые показатели, обученные на существующих наборах данных, на 35%. Наш анализ подчеркивает потенциал использования крупномасштабных общедоступных карт для разработки и тестирования обобщаемого восприятия BEV, что открывает путь к более надежной автономной навигации.

English

Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.

Картирование взгляда сверху (MIA): Усиление создания карт с использованием общедоступных данных большого масштаба

Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

Аннотация

Support