NaviTrace : Évaluation de la Navigation Incarnée pour les Modèles Vision-Langage
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
papers.authors: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
papers.abstract
Les modèles vision-langue démontrent des performances et une capacité de généralisation sans précédent sur un large éventail de tâches et de scénarios. L'intégration de ces modèles de fondation dans les systèmes de navigation robotique ouvre la voie vers la création de robots polyvalents. Pourtant, l'évaluation des capacités de navigation de ces modèles reste limitée par des essais en conditions réelles coûteux, des simulations excessivement simplifiées et des points de référence limités. Nous présentons NaviTrace, un benchmark de haute qualité de Question-Réponse Visuelle où un modèle reçoit une instruction et un type d'incarnation (humain, robot à pattes, robot à roues, vélo) et doit produire une trace de navigation 2D dans l'espace image. Sur 1000 scénarios et plus de 3000 traces expertes, nous évaluons systématiquement huit modèles vision-langue de pointe à l'aide d'un score de trace sémantique nouvellement introduit. Cette métrique combine la distance de Dynamic Time Warping, l'erreur de position du point d'arrivée, et des pénalités conditionnées par l'incarnation dérivées de la sémantique par pixel, et elle présente une corrélation avec les préférences humaines. Notre évaluation révèle un écart constant par rapport aux performances humaines, causé par une mauvaise ancrage spatial et une localisation déficiente des objectifs. NaviTrace établit un benchmark reproductible et évolutif pour la navigation robotique en monde réel. Le benchmark et le classement sont disponibles à l'adresse https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.