NaviTrace: Evaluación de la Navegación Corporizada en Modelos de Visión y Lenguaje

Resumen

Los modelos de visión y lenguaje demuestran un rendimiento y una capacidad de generalización sin precedentes en una amplia gama de tareas y escenarios. La integración de estos modelos fundacionales en sistemas de navegación robótica abre vías hacia la construcción de robots de propósito general. Sin embargo, la evaluación de las capacidades de navegación de estos modelos sigue estando limitada por costosas pruebas en el mundo real, simulaciones excesivamente simplificadas y puntos de referencia limitados. Presentamos NaviTrace, un benchmark de alta calidad de Respuesta a Preguntas Visuales donde un modelo recibe una instrucción y un tipo de encarnación (humano, robot con patas, robot con ruedas, bicicleta) y debe generar un trazo de navegación 2D en el espacio de la imagen. A lo largo de 1000 escenarios y más de 3000 trazos expertos, evaluamos sistemáticamente ocho modelos de visión y lenguaje de última generación utilizando una nueva métrica de puntuación de trazo consciente de la semántica. Esta métrica combina la distancia de deformación dinámica del tiempo, el error del punto final de la meta y penalizaciones condicionadas por la encarnación derivadas de la semántica por píxel, y se correlaciona con las preferencias humanas. Nuestra evaluación revela una brecha constante con el rendimiento humano causada por una pobre fundamentación espacial y una localización deficiente de los objetivos. NaviTrace establece un benchmark escalable y reproducible para la navegación robótica en el mundo real. El benchmark y la clasificación pueden encontrarse en https://leggedrobotics.github.io/navitrace_webpage/.

English

Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.

NaviTrace: Evaluación de la Navegación Corporizada en Modelos de Visión y Lenguaje

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

Resumen

Support