NaviTrace : Évaluation de la Navigation Incarnée pour les Modèles Vision-Langage

papers.abstract

Les modèles vision-langue démontrent des performances et une capacité de généralisation sans précédent sur un large éventail de tâches et de scénarios. L'intégration de ces modèles de fondation dans les systèmes de navigation robotique ouvre la voie vers la création de robots polyvalents. Pourtant, l'évaluation des capacités de navigation de ces modèles reste limitée par des essais en conditions réelles coûteux, des simulations excessivement simplifiées et des points de référence limités. Nous présentons NaviTrace, un benchmark de haute qualité de Question-Réponse Visuelle où un modèle reçoit une instruction et un type d'incarnation (humain, robot à pattes, robot à roues, vélo) et doit produire une trace de navigation 2D dans l'espace image. Sur 1000 scénarios et plus de 3000 traces expertes, nous évaluons systématiquement huit modèles vision-langue de pointe à l'aide d'un score de trace sémantique nouvellement introduit. Cette métrique combine la distance de Dynamic Time Warping, l'erreur de position du point d'arrivée, et des pénalités conditionnées par l'incarnation dérivées de la sémantique par pixel, et elle présente une corrélation avec les préférences humaines. Notre évaluation révèle un écart constant par rapport aux performances humaines, causé par une mauvaise ancrage spatial et une localisation déficiente des objectifs. NaviTrace établit un benchmark reproductible et évolutif pour la navigation robotique en monde réel. Le benchmark et le classement sont disponibles à l'adresse https://leggedrobotics.github.io/navitrace_webpage/.

English

Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.

NaviTrace : Évaluation de la Navigation Incarnée pour les Modèles Vision-Langage

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

papers.abstract

Support