NaviTrace: Evaluación de la Navegación Corporizada en Modelos de Visión y Lenguaje
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
Autores: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
Resumen
Los modelos de visión y lenguaje demuestran un rendimiento y una capacidad de generalización sin precedentes en una amplia gama de tareas y escenarios. La integración de estos modelos fundacionales en sistemas de navegación robótica abre vías hacia la construcción de robots de propósito general. Sin embargo, la evaluación de las capacidades de navegación de estos modelos sigue estando limitada por costosas pruebas en el mundo real, simulaciones excesivamente simplificadas y puntos de referencia limitados. Presentamos NaviTrace, un benchmark de alta calidad de Respuesta a Preguntas Visuales donde un modelo recibe una instrucción y un tipo de encarnación (humano, robot con patas, robot con ruedas, bicicleta) y debe generar un trazo de navegación 2D en el espacio de la imagen. A lo largo de 1000 escenarios y más de 3000 trazos expertos, evaluamos sistemáticamente ocho modelos de visión y lenguaje de última generación utilizando una nueva métrica de puntuación de trazo consciente de la semántica. Esta métrica combina la distancia de deformación dinámica del tiempo, el error del punto final de la meta y penalizaciones condicionadas por la encarnación derivadas de la semántica por píxel, y se correlaciona con las preferencias humanas. Nuestra evaluación revela una brecha constante con el rendimiento humano causada por una pobre fundamentación espacial y una localización deficiente de los objetivos. NaviTrace establece un benchmark escalable y reproducible para la navegación robótica en el mundo real. El benchmark y la clasificación pueden encontrarse en https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.