NaviTrace: Оценка воплощенной навигации моделей «зрение-язык»

Аннотация

Модели «визуальный язык» демонстрируют беспрецедентную производительность и способность к обобщению в широком спектре задач и сценариев. Интеграция этих базовых моделей в системы роботизированной навигации открывает пути к созданию роботов общего назначения. Однако оценка навигационных способностей этих моделей по-прежнему ограничена дорогостоящими испытаниями в реальном мире, чрезмерно упрощенными симуляциями и ограниченными наборами тестов. Мы представляем NaviTrace — высококачественный бенчмарк «Визуальный вопрос-ответ», в котором модель получает инструкцию и тип воплощения (человек, шагающий робот, колесный робот, велосипед) и должна вывести двумерную трассу навигации в пространстве изображения. На основе 1000 сценариев и более 3000 экспертных трасс мы систематически оцениваем восемь современных моделей VLM, используя новый семантически-осознающий показатель качества трассы. Эта метрика сочетает расстояние динамической трансформации времени (DTW), ошибку конечной точки цели и штрафы, обусловленные типом воплощения и полученные из семантики каждого пикселя, а также коррелирует с предпочтениями человека. Наша оценка выявляет устойчивый разрыв с производительностью человека, вызванный слабой пространственной привязкой и локализацией цели. NaviTrace создает масштабируемый и воспроизводимый бенчмарк для навигации роботов в реальном мире. Бенчмарк и таблица лидеров доступны по адресу https://leggedrobotics.github.io/navitrace_webpage/.

English

Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.

NaviTrace: Оценка воплощенной навигации моделей «зрение-язык»

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

Аннотация

Support