NaviTrace: 視覚言語モデルの具現化ナビゲーション評価
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
著者: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
要旨
視覚言語モデルは、多様なタスクとシナリオにおいて、前例のない性能と汎化能力を示している。これらの基盤モデルをロボットナビゲーションシステムに統合することは、汎用ロボットの構築に向けた道筋を開く。しかし、これらのモデルのナビゲーション能力を評価するには、コストの高い実世界での試験、過度に単純化されたシミュレーション、限定的なベンチマークによって制約されているのが現状である。本研究では、NaviTraceという高品質な視覚質問応答ベンチマークを提案する。このベンチマークでは、モデルが指示と身体性の種類(人間、脚式ロボット、車輪型ロボット、自転車)を受け取り、画像空間内で2Dのナビゲーショントレースを出力しなければならない。1000のシナリオと3000以上の専門家によるトレースを用いて、新たに導入されたセマンティックを考慮したトレーススコアにより、8つの最先端視覚言語モデルを系統的に評価する。この指標は、動的時間伸縮法距離、目標終端点誤差、およびピクセル単位のセマンティクスから導出された身体性に基づくペナルティを組み合わせたもので、人間の選好と相関する。評価の結果、不十分な空間的接地と目標位置の特定に起因する、人間の性能との一貫した差が明らかになった。NaviTraceは、実世界のロボットナビゲーションのためのスケーラブルで再現性の高いベンチマークを確立する。ベンチマークとリーダーボードは以下のURLで公開されている。https://leggedrobotics.github.io/navitrace_webpage/
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.