Map It Anywhere (MIA): 大規模公開データを活用した鳥瞰図マッピングの実現
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
July 11, 2024
著者: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
cs.AI
要旨
トップダウン型の鳥瞰図(BEV)マップは、その豊富な情報量と下流タスクへの柔軟性から、地上ロボットナビゲーションにおいて人気のある表現形式です。最近の手法では、一人称視点(FPV)画像からBEVマップを予測することに有望な成果を示していますが、その汎用性は現在の自動車ベースのデータセットで捕捉される狭い領域に限定されています。この文脈において、私たちは、大規模なクラウドソーシングマッピングプラットフォームであるMapillary(FPV画像用)とOpenStreetMap(BEVセマンティックマップ用)を活用することで、汎用的なマップ予測に向けたよりスケーラブルなアプローチが可能であることを示します。本論文では、既存のオープンソースマッププラットフォームからラベル付きマップ予測データをシームレスにキュレーションおよびモデリングするデータエンジン「Map It Anywhere(MIA)」を紹介します。MIAデータエンジンを使用することで、多様な地理、景観、環境要因、カメラモデル、撮影シナリオを含む120万組のFPV画像とBEVマップのデータセットを自動的に収集する容易さを実証します。さらに、このデータを用いて、カメラモデルに依存しないシンプルなモデルをBEVマップ予測用に学習させます。確立されたベンチマークと私たちのデータセットを用いた広範な評価により、MIAによってキュレーションされたデータが、汎用的なBEVマップ予測のための効果的な事前学習を可能にし、既存のデータセットで学習されたベースラインを35%も上回るゼロショット性能を達成することが示されました。私たちの分析は、大規模な公開マップを活用して汎用的なBEV知覚を開発・テストすることの可能性を強調し、より堅牢な自律ナビゲーションへの道を開くものです。
English
Top-down Bird's Eye View (BEV) maps are a popular representation for ground
robot navigation due to their richness and flexibility for downstream tasks.
While recent methods have shown promise for predicting BEV maps from
First-Person View (FPV) images, their generalizability is limited to small
regions captured by current autonomous vehicle-based datasets. In this context,
we show that a more scalable approach towards generalizable map prediction can
be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary
for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It
Anywhere (MIA), a data engine that enables seamless curation and modeling of
labeled map prediction data from existing open-source map platforms. Using our
MIA data engine, we display the ease of automatically collecting a dataset of
1.2 million pairs of FPV images & BEV maps encompassing diverse geographies,
landscapes, environmental factors, camera models & capture scenarios. We
further train a simple camera model-agnostic model on this data for BEV map
prediction. Extensive evaluations using established benchmarks and our dataset
show that the data curated by MIA enables effective pretraining for
generalizable BEV map prediction, with zero-shot performance far exceeding
baselines trained on existing datasets by 35%. Our analysis highlights the
promise of using large-scale public maps for developing & testing generalizable
BEV perception, paving the way for more robust autonomous navigation.Summary
AI-Generated Summary