NaviTrace: Valutazione della Navigazione Corporea nei Modelli Visione-Linguaggio
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
Autori: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
Abstract
I modelli visione-linguaggio dimostrano prestazioni e capacità di generalizzazione senza precedenti su un'ampia gamma di compiti e scenari. L'integrazione di questi modelli di fondazione nei sistemi di navigazione robotica apre la strada verso la realizzazione di robot a scopo generale. Tuttavia, la valutazione delle capacità di navigazione di questi modelli rimane limitata dai costosi test nel mondo reale, da simulazioni eccessivamente semplificate e da benchmark limitati. Presentiamo NaviTrace, un benchmark di alta qualità per il Visual Question Answering in cui un modello riceve un'istruzione e un tipo di embodiement (umano, robot a gambe, robot a ruote, bicicletta) e deve produrre una traccia di navigazione 2D nello spazio dell'immagine. Attraverso 1000 scenari e più di 3000 tracce esperte, valutiamo sistematicamente otto modelli VLMs all'avanguardia utilizzando un nuovo punteggio di traccia semantico. Questa metrica combina la distanza Dynamic Time Warping, l'errore del punto finale dell'obiettivo e penalità condizionate all'embodiement derivate dalla semantica per-pixel, e mostra correlazione con le preferenze umane. La nostra valutazione rivela un divario consistente rispetto alle prestazioni umane causato da uno scarco grounding spaziale e da una localizzazione imprecisa degli obiettivi. NaviTrace stabilisce un benchmark scalabile e riproducibile per la navigazione robotica nel mondo reale. Il benchmark e la classifica sono disponibili all'indirizzo https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.