NaviTrace: Avaliação da Navegação Corporificada de Modelos de Visão e Linguagem
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
Autores: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
Resumo
Os modelos visão-linguagem demonstram desempenho e capacidade de generalização sem precedentes em uma ampla gama de tarefas e cenários. A integração desses modelos de base em sistemas de navegação robótica abre caminhos para a construção de robôs de propósito geral. No entanto, a avaliação das capacidades de navegação desses modelos continua limitada por testes no mundo real dispendiosos, simulações excessivamente simplificadas e benchmarks limitados. Apresentamos o NaviTrace, um benchmark de alta qualidade para Questionamento Visual onde um modelo recebe uma instrução e um tipo de corporeidade (humano, robô com pernas, robô com rodas, bicicleta) e deve produzir um traço de navegação 2D no espaço da imagem. Através de 1000 cenários e mais de 3000 traços especializados, avaliamos sistematicamente oito VLMs state-of-the-art usando uma nova pontuação de traço semanticamente consciente. Esta métrica combina a distância de Dynamic Time Warping, o erro do ponto final da meta e penalidades condicionadas à corporeidade derivadas da semântica por pixel, e correlaciona-se com as preferências humanas. Nossa avaliação revela uma lacuna consistente em relação ao desempenho humano causada por um fraco grounding espacial e localização de objetivos. O NaviTrace estabelece um benchmark escalável e reproduzível para navegação robótica no mundo real. O benchmark e o ranking de líderes podem ser encontrados em https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.