Картирование взгляда сверху (MIA): Усиление создания карт с использованием общедоступных данных большого масштаба
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
July 11, 2024
Авторы: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI
Аннотация
Карты сверху вниз (Bird's Eye View, BEV) являются популярным представлением для навигации наземных роботов благодаря их информативности и гибкости для последующих задач. В то время как недавние методы показали потенциал в предсказании карт BEV по изображениям от первого лица (First-Person View, FPV), их обобщаемость ограничена маленькими регионами, охваченными текущими наборами данных автономных транспортных средств. В этом контексте мы показываем, что более масштабный подход к обобщаемому предсказанию карт может быть реализован с использованием двух крупномасштабных платформ с картографическими данными, Mapillary для изображений FPV и OpenStreetMap для семантических карт BEV. Мы представляем Map It Anywhere (MIA), движок данных, который обеспечивает безупречную кураторскую работу и моделирование помеченных данных предсказания карт из существующих открытых картографических платформ. Используя наш движок данных MIA, мы демонстрируем легкость автоматического сбора набора данных из 1,2 миллиона пар изображений FPV и карт BEV, охватывающих разнообразные географии, ландшафты, окружающие факторы, модели камер и сценарии съемки. Мы также обучаем простую модель, не зависящую от модели камеры, на этих данных для предсказания карт BEV. Обширные оценки с использованием установленных бенчмарков и нашего набора данных показывают, что данные, собранные MIA, обеспечивают эффективное предварительное обучение для обобщаемого предсказания карт BEV, с производительностью "нулевого сэмпла", превосходящей базовые показатели, обученные на существующих наборах данных, на 35%. Наш анализ подчеркивает потенциал использования крупномасштабных общедоступных карт для разработки и тестирования обобщаемого восприятия BEV, что открывает путь к более надежной автономной навигации.
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground
robot navigation due to their richness and flexibility for downstream tasks.
While recent methods have shown promise for predicting BEV maps from
First-Person View (FPV) images, their generalizability is limited to small
regions captured by current autonomous vehicle-based datasets. In this context,
we show that a more scalable approach towards generalizable map prediction can
be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary
for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It
Anywhere (MIA), a data engine that enables seamless curation and modeling of
labeled map prediction data from existing open-source map platforms. Using our
MIA data engine, we display the ease of automatically collecting a dataset of
1.2 million pairs of FPV images & BEV maps encompassing diverse geographies,
landscapes, environmental factors, camera models & capture scenarios. We
further train a simple camera model-agnostic model on this data for BEV map
prediction. Extensive evaluations using established benchmarks and our dataset
show that the data curated by MIA enables effective pretraining for
generalizable BEV map prediction, with zero-shot performance far exceeding
baselines trained on existing datasets by 35%. Our analysis highlights the
promise of using large-scale public maps for developing & testing generalizable
BEV perception, paving the way for more robust autonomous navigation.Summary
AI-Generated Summary