MobilityBench: Бенчмарк для оценки агентов планирования маршрутов в сценариях реальной мобильности

Аннотация

Агенты планирования маршрутов на основе больших языковых моделей (LLM) стали перспективной парадигмой для поддержки повседневной мобильности человека через естественно-языковое взаимодействие и принятие решений с использованием инструментов. Однако систематическая оценка в условиях реальной мобильности затруднена из-за разнообразных потребностей в маршрутизации, недетерминированных картографических сервисов и ограниченной воспроизводимости. В данном исследовании мы представляем MobilityBench — масштабируемый эталонный набор для оценки агентов планирования маршрутов на основе LLM в сценариях реальной мобильности. MobilityBench построен на основе крупномасштабных анонимизированных реальных пользовательских запросов, собранных с Amap, и охватывает широкий спектр намерений планирования маршрутов в нескольких городах по всему миру. Для обеспечения воспроизводимой сквозной оценки мы разработали детерминированную песочницу с репликацией API, которая устраняет вариативность окружения, присущую живым сервисам. Дополнительно мы предлагаем многомерный протокол оценки, сфокусированный на валидности результата и дополненный оценками понимания инструкций, планирования, использования инструментов и эффективности. Используя MobilityBench, мы оценили несколько агентов планирования маршрутов на основе LLM в разнообразных сценариях реальной мобильности и провели углубленный анализ их поведения и производительности. Наши результаты показывают, что современные модели успешно справляются с задачами базового поиска информации и планирования маршрутов, но испытывают значительные трудности с планированием маршрутов с учетом предпочтений, что указывает на существенный потенциал для улучшения в области персонализированных мобильных приложений. Мы публично размещаем эталонные данные, инструментарий оценки и документацию по адресу https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: Бенчмарк для оценки агентов планирования маршрутов в сценариях реальной мобильности

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Аннотация

Support