NaviTrace: Bewertung des verkörperten Navigationsverhaltens von Vision-Sprach-Modellen

papers.abstract

Vision-Language-Modelle demonstrieren beispiellose Leistungsfähigkeit und Generalisierung in einer Vielzahl von Aufgaben und Szenarien. Die Integration dieser Foundation-Modelle in robotische Navigationssysteme eröffnet Wege zur Entwicklung universell einsetzbarer Roboter. Dennoch bleibt die Evaluierung der Navigationsfähigkeiten dieser Modelle eingeschränkt durch kostspielige Tests in der realen Welt, übermäßig vereinfachte Simulationen und begrenzte Benchmarks. Wir stellen NaviTrace vor, einen hochwertigen Benchmark für Visual Question Answering, bei dem ein Modul eine Anweisung und einen Verkörperungstyp (Mensch, Laufroboter, Fahrzeugroboter, Fahrrad) erhält und eine 2D-Navigationsspur im Bildraum ausgeben muss. Über 1000 Szenarien und mehr als 3000 Expertenspuren hinweg evaluieren wir systematisch acht state-of-the-art VLMs unter Verwendung eines neu eingeführten semantikbewussten Spur-Scores. Diese Metrik kombiniert Dynamic-Time-Warping-Distanz, Ziel-Endpunkt-Fehler und verkörperungsbedingte Penalties, die aus pro-Pixel-Semantik abgeleitet werden, und korreliert mit menschlichen Präferenzen. Unsere Auswertung zeigt eine konsistente Lücke zur menschlichen Leistung, verursacht durch unzureichende räumliche Verankerung und Zielortung. NaviTrace etabliert einen skalierbaren und reproduzierbaren Benchmark für die robotische Navigation in der realen Welt. Der Benchmark und die Bestenliste sind unter https://leggedrobotics.github.io/navitrace_webpage/ verfügbar.

English

Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.

NaviTrace: Bewertung des verkörperten Navigationsverhaltens von Vision-Sprach-Modellen

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

papers.abstract

Support