NaviTrace: Bewertung des verkörperten Navigationsverhaltens von Vision-Sprach-Modellen
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
papers.authors: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
papers.abstract
Vision-Language-Modelle demonstrieren beispiellose Leistungsfähigkeit und Generalisierung in einer Vielzahl von Aufgaben und Szenarien. Die Integration dieser Foundation-Modelle in robotische Navigationssysteme eröffnet Wege zur Entwicklung universell einsetzbarer Roboter. Dennoch bleibt die Evaluierung der Navigationsfähigkeiten dieser Modelle eingeschränkt durch kostspielige Tests in der realen Welt, übermäßig vereinfachte Simulationen und begrenzte Benchmarks. Wir stellen NaviTrace vor, einen hochwertigen Benchmark für Visual Question Answering, bei dem ein Modul eine Anweisung und einen Verkörperungstyp (Mensch, Laufroboter, Fahrzeugroboter, Fahrrad) erhält und eine 2D-Navigationsspur im Bildraum ausgeben muss. Über 1000 Szenarien und mehr als 3000 Expertenspuren hinweg evaluieren wir systematisch acht state-of-the-art VLMs unter Verwendung eines neu eingeführten semantikbewussten Spur-Scores. Diese Metrik kombiniert Dynamic-Time-Warping-Distanz, Ziel-Endpunkt-Fehler und verkörperungsbedingte Penalties, die aus pro-Pixel-Semantik abgeleitet werden, und korreliert mit menschlichen Präferenzen. Unsere Auswertung zeigt eine konsistente Lücke zur menschlichen Leistung, verursacht durch unzureichende räumliche Verankerung und Zielortung. NaviTrace etabliert einen skalierbaren und reproduzierbaren Benchmark für die robotische Navigation in der realen Welt. Der Benchmark und die Bestenliste sind unter https://leggedrobotics.github.io/navitrace_webpage/ verfügbar.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.