NaviTrace: Оценка воплощенной навигации моделей «зрение-язык»
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
October 30, 2025
Авторы: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI
Аннотация
Модели «визуальный язык» демонстрируют беспрецедентную производительность и способность к обобщению в широком спектре задач и сценариев. Интеграция этих базовых моделей в системы роботизированной навигации открывает пути к созданию роботов общего назначения. Однако оценка навигационных способностей этих моделей по-прежнему ограничена дорогостоящими испытаниями в реальном мире, чрезмерно упрощенными симуляциями и ограниченными наборами тестов. Мы представляем NaviTrace — высококачественный бенчмарк «Визуальный вопрос-ответ», в котором модель получает инструкцию и тип воплощения (человек, шагающий робот, колесный робот, велосипед) и должна вывести двумерную трассу навигации в пространстве изображения. На основе 1000 сценариев и более 3000 экспертных трасс мы систематически оцениваем восемь современных моделей VLM, используя новый семантически-осознающий показатель качества трассы. Эта метрика сочетает расстояние динамической трансформации времени (DTW), ошибку конечной точки цели и штрафы, обусловленные типом воплощения и полученные из семантики каждого пикселя, а также коррелирует с предпочтениями человека. Наша оценка выявляет устойчивый разрыв с производительностью человека, вызванный слабой пространственной привязкой и локализацией цели. NaviTrace создает масштабируемый и воспроизводимый бенчмарк для навигации роботов в реальном мире. Бенчмарк и таблица лидеров доступны по адресу https://leggedrobotics.github.io/navitrace_webpage/.
English
Vision-language models demonstrate unprecedented performance and
generalization across a wide range of tasks and scenarios. Integrating these
foundation models into robotic navigation systems opens pathways toward
building general-purpose robots. Yet, evaluating these models' navigation
capabilities remains constrained by costly real-world trials, overly simplified
simulations, and limited benchmarks. We introduce NaviTrace, a high-quality
Visual Question Answering benchmark where a model receives an instruction and
embodiment type (human, legged robot, wheeled robot, bicycle) and must output a
2D navigation trace in image space. Across 1000 scenarios and more than 3000
expert traces, we systematically evaluate eight state-of-the-art VLMs using a
newly introduced semantic-aware trace score. This metric combines Dynamic Time
Warping distance, goal endpoint error, and embodiment-conditioned penalties
derived from per-pixel semantics and correlates with human preferences. Our
evaluation reveals consistent gap to human performance caused by poor spatial
grounding and goal localization. NaviTrace establishes a scalable and
reproducible benchmark for real-world robotic navigation. The benchmark and
leaderboard can be found at
https://leggedrobotics.github.io/navitrace_webpage/.