NaviTrace: Evaluatie van Belichaamde Navigatie van Visie-Taalmodellen
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
Auteurs: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
Samenvatting
Vision-language-modellen vertonen ongekende prestaties en generalisatievermogen voor een breed scala aan taken en scenario's. Het integreren van deze foundation-modellen in robotnavigatiesystemen opent wegen naar de ontwikkeling van algemene robots. Toch blijft de evaluatie van de navigatiecapaciteiten van deze modellen beperkt door kostbare tests in de echte wereld, sterk vereenvoudigde simulaties en beperkte benchmarks. Wij introduceren NaviTrace, een benchmark van hoge kwaliteit voor visueel vraag-antwoord, waarbij een model een instructie en belichamingstype (mens, robot met poten, robot met wielen, fiets) ontvangt en een 2D-navigatietracé in de beeldruimte moet uitvoeren. Over 1000 scenario's en meer dan 3000 expert-tracés evalueren wij systematisch acht state-of-the-art VLM's met behulp van een nieuw geïntroduceerde semantisch-bewuste tracéscore. Deze metriek combineert Dynamic Time Warping-afstand, fout in het doel-eindpunt en op belichaming geconditioneerde penalties afgeleid van per-pixel semantiek, en correleert met menselijke voorkeuren. Onze evaluatie toont een consistente kloof met menselijke prestaties aan, veroorzaakt door slechte spatiale grounding en doel-localisatie. NaviTrace vestigt een schaalbare en reproduceerbare benchmark voor navigatie van robots in de echte wereld. De benchmark en leaderboard zijn te vinden op https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.