ChatPaper.aiChatPaper

NaviTrace: 비전-언어 모델의 구현된 내비게이션 성능 평가

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

October 30, 2025
저자: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey
cs.AI

초록

비전-언어 모델은 다양한 작업과 시나리오에서 전례 없는 성능과 일반화 능력을 보여줍니다. 이러한 기초 모델을 로봇 항법 시스템에 통합하면 범용 로봇 개발을 위한 길이 열립니다. 그러나 이러한 모델의 항법 능력을 평가하는 것은 비용이 많이 드는 실세계 실험, 지나치게 단순화된 시뮬레이션, 그리고 제한된 벤치마크로 인해 여전히 제약을 받고 있습니다. 우리는 NaviTrace를 소개합니다. 이는 모델이 지시어와 구현체 유형(인간, 다족 보행 로봇, 바퀴형 로봇, 자전거)을 입력받고 이미지 공간에서 2D 항법 경로를 출력해야 하는 고품질 시각 질의응답 벤치마크입니다. 1000개의 시나리오와 3000개 이상의 전문가 추적 경로를 바탕으로, 새로 도입된 의미 인식 경로 점수를 사용하여 8개의 최첨단 VLM을 체계적으로 평가합니다. 이 메트릭은 Dynamic Time Warping 거리, 목표 지점 오차, 그리고 픽셀 단위 의미론에서 도출된 구현체 조건부 패널티를 결합하며 인간의 선호도와 상관관계를 가집니다. 우리의 평가는 부족한 공간 기반화 및 목표 위치 파악으로 인한 인간 수준 성능과의 지속적인 격차를 드러냅니다. NaviTrace는 실세계 로봇 항법을 위한 확장 가능하고 재현 가능한 벤치마크를 정립합니다. 벤치마크와 리더보드는 https://leggedrobotics.github.io/navitrace_webpage/에서 확인할 수 있습니다.
English
Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.
PDF131January 19, 2026