NaviTrace: Valutazione della Navigazione Corporea nei Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio dimostrano prestazioni e capacità di generalizzazione senza precedenti su un'ampia gamma di compiti e scenari. L'integrazione di questi modelli di fondazione nei sistemi di navigazione robotica apre la strada verso la realizzazione di robot a scopo generale. Tuttavia, la valutazione delle capacità di navigazione di questi modelli rimane limitata dai costosi test nel mondo reale, da simulazioni eccessivamente semplificate e da benchmark limitati. Presentiamo NaviTrace, un benchmark di alta qualità per il Visual Question Answering in cui un modello riceve un'istruzione e un tipo di embodiement (umano, robot a gambe, robot a ruote, bicicletta) e deve produrre una traccia di navigazione 2D nello spazio dell'immagine. Attraverso 1000 scenari e più di 3000 tracce esperte, valutiamo sistematicamente otto modelli VLMs all'avanguardia utilizzando un nuovo punteggio di traccia semantico. Questa metrica combina la distanza Dynamic Time Warping, l'errore del punto finale dell'obiettivo e penalità condizionate all'embodiement derivate dalla semantica per-pixel, e mostra correlazione con le preferenze umane. La nostra valutazione rivela un divario consistente rispetto alle prestazioni umane causato da uno scarco grounding spaziale e da una localizzazione imprecisa degli obiettivi. NaviTrace stabilisce un benchmark scalabile e riproducibile per la navigazione robotica nel mondo reale. Il benchmark e la classifica sono disponibili all'indirizzo https://leggedrobotics.github.io/navitrace_webpage/.

English

Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.

NaviTrace: Valutazione della Navigazione Corporea nei Modelli Visione-Linguaggio

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

Abstract

Support