ChatPaper.aiChatPaper

NaviTrace: Avaliação da Navegação Corporificada de Modelos de Visão e Linguagem

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

October 30, 2025
Autores: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI

Resumo

Os modelos visão-linguagem demonstram desempenho e capacidade de generalização sem precedentes em uma ampla gama de tarefas e cenários. A integração desses modelos de base em sistemas de navegação robótica abre caminhos para a construção de robôs de propósito geral. No entanto, a avaliação das capacidades de navegação desses modelos continua limitada por testes no mundo real dispendiosos, simulações excessivamente simplificadas e benchmarks limitados. Apresentamos o NaviTrace, um benchmark de alta qualidade para Questionamento Visual onde um modelo recebe uma instrução e um tipo de corporeidade (humano, robô com pernas, robô com rodas, bicicleta) e deve produzir um traço de navegação 2D no espaço da imagem. Através de 1000 cenários e mais de 3000 traços especializados, avaliamos sistematicamente oito VLMs state-of-the-art usando uma nova pontuação de traço semanticamente consciente. Esta métrica combina a distância de Dynamic Time Warping, o erro do ponto final da meta e penalidades condicionadas à corporeidade derivadas da semântica por pixel, e correlaciona-se com as preferências humanas. Nossa avaliação revela uma lacuna consistente em relação ao desempenho humano causada por um fraco grounding espacial e localização de objetivos. O NaviTrace estabelece um benchmark escalável e reproduzível para navegação robótica no mundo real. O benchmark e o ranking de líderes podem ser encontrados em https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.
PDF141February 7, 2026