MobilityBench : Un Benchmark pour l'Évaluation des Agents de Planification d'Itinéraires dans des Scénarios de Mobilité Réels

Résumé

Les agents de planification d'itinéraires alimentés par des grands modèles de langage (LLM) sont apparus comme un paradigme prometteur pour soutenir la mobilité humaine quotidienne grâce à l'interaction en langage naturel et la prise de décision assistée par des outils. Cependant, l'évaluation systématique dans des contextes de mobilité réels est entravée par la diversité des demandes de routage, le caractère non déterministe des services de cartographie et la reproductibilité limitée. Dans cette étude, nous présentons MobilityBench, un benchmark évolutif pour évaluer les agents de planification d'itinéraires basés sur des LLM dans des scénarios de mobilité réels. MobilityBench est construit à partir de requêtes utilisateurs réelles anonymisées à grande échelle collectées auprès d'Amap et couvre un large éventail d'intentions de planification d'itinéraires dans plusieurs villes à travers le monde. Pour permettre une évaluation reproductible de bout en bout, nous concevons un bac à sable de rejeu d'API déterministe qui élimine la variance environnementale des services en direct. Nous proposons en outre un protocole d'évaluation multidimensionnel centré sur la validité des résultats, complété par des évaluations de la compréhension des instructions, de la planification, de l'utilisation des outils et de l'efficacité. En utilisant MobilityBench, nous évaluons plusieurs agents de planification d'itinéraires basés sur des LLM dans divers scénarios de mobilité réels et fournissons une analyse approfondie de leurs comportements et performances. Nos résultats révèlent que les modèles actuels performent de manière compétente sur les tâches de Récupération d'informations de base et de Planification d'itinéraires, mais éprouvent des difficultés considérables avec la Planification d'itinéraires sous contraintes de préférences, soulignant une marge d'amélioration significative pour les applications de mobilité personnalisées. Nous rendons publics les données du benchmark, la boîte à outils d'évaluation et la documentation à l'adresse https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench : Un Benchmark pour l'Évaluation des Agents de Planification d'Itinéraires dans des Scénarios de Mobilité Réels

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Résumé

Support