ChatPaper.aiChatPaper

NaviTrace: Evaluatie van Belichaamde Navigatie van Visie-Taalmodellen

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

October 30, 2025
Auteurs: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI

Samenvatting

Vision-language-modellen vertonen ongekende prestaties en generalisatievermogen voor een breed scala aan taken en scenario's. Het integreren van deze foundation-modellen in robotnavigatiesystemen opent wegen naar de ontwikkeling van algemene robots. Toch blijft de evaluatie van de navigatiecapaciteiten van deze modellen beperkt door kostbare tests in de echte wereld, sterk vereenvoudigde simulaties en beperkte benchmarks. Wij introduceren NaviTrace, een benchmark van hoge kwaliteit voor visueel vraag-antwoord, waarbij een model een instructie en belichamingstype (mens, robot met poten, robot met wielen, fiets) ontvangt en een 2D-navigatietracé in de beeldruimte moet uitvoeren. Over 1000 scenario's en meer dan 3000 expert-tracés evalueren wij systematisch acht state-of-the-art VLM's met behulp van een nieuw geïntroduceerde semantisch-bewuste tracéscore. Deze metriek combineert Dynamic Time Warping-afstand, fout in het doel-eindpunt en op belichaming geconditioneerde penalties afgeleid van per-pixel semantiek, en correleert met menselijke voorkeuren. Onze evaluatie toont een consistente kloof met menselijke prestaties aan, veroorzaakt door slechte spatiale grounding en doel-localisatie. NaviTrace vestigt een schaalbare en reproduceerbare benchmark voor navigatie van robots in de echte wereld. De benchmark en leaderboard zijn te vinden op https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.
PDF131December 2, 2025