ChatPaper.aiChatPaper

MobilityBench: Бенчмарк для оценки агентов планирования маршрутов в сценариях реальной мобильности

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

February 26, 2026
Авторы: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu
cs.AI

Аннотация

Агенты планирования маршрутов на основе больших языковых моделей (LLM) стали перспективной парадигмой для поддержки повседневной мобильности человека через естественно-языковое взаимодействие и принятие решений с использованием инструментов. Однако систематическая оценка в условиях реальной мобильности затруднена из-за разнообразных потребностей в маршрутизации, недетерминированных картографических сервисов и ограниченной воспроизводимости. В данном исследовании мы представляем MobilityBench — масштабируемый эталонный набор для оценки агентов планирования маршрутов на основе LLM в сценариях реальной мобильности. MobilityBench построен на основе крупномасштабных анонимизированных реальных пользовательских запросов, собранных с Amap, и охватывает широкий спектр намерений планирования маршрутов в нескольких городах по всему миру. Для обеспечения воспроизводимой сквозной оценки мы разработали детерминированную песочницу с репликацией API, которая устраняет вариативность окружения, присущую живым сервисам. Дополнительно мы предлагаем многомерный протокол оценки, сфокусированный на валидности результата и дополненный оценками понимания инструкций, планирования, использования инструментов и эффективности. Используя MobilityBench, мы оценили несколько агентов планирования маршрутов на основе LLM в разнообразных сценариях реальной мобильности и провели углубленный анализ их поведения и производительности. Наши результаты показывают, что современные модели успешно справляются с задачами базового поиска информации и планирования маршрутов, но испытывают значительные трудности с планированием маршрутов с учетом предпочтений, что указывает на существенный потенциал для улучшения в области персонализированных мобильных приложений. Мы публично размещаем эталонные данные, инструментарий оценки и документацию по адресу https://github.com/AMAP-ML/MobilityBench.
English
Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .
PDF923February 28, 2026