MobilityBench: Een Benchmark voor het Evalueren van Routeplanningsagenten in Realistische Mobiliteitsscenario's

Samenvatting

Op grote taalmodellen (LLM's) gebaseerde routeplanningsagents zijn naar voren gekomen als een veelbelovend paradigma voor het ondersteunen van de dagelijkse menselijke mobiliteit via natuurlijke taalinteractie en tool-gemedieerde besluitvorming. Systematische evaluatie in realistische mobiliteitssettings wordt echter belemmerd door uiteenlopende routebehoeften, niet-deterministische kaartdiensten en beperkte reproduceerbaarheid. In deze studie introduceren we MobilityBench, een schaalbare benchmark voor het evalueren van op LLM's gebaseerde routeplanningsagents in realistische mobiliteitsscenario's. MobilityBench is opgebouwd uit grootschalige, geanonimiseerde echte gebruikersquery's verzameld van Amap en bestrijkt een breed spectrum aan routeplanningsintenties in meerdere steden wereldwijd. Om reproduceerbare, end-to-end evaluatie mogelijk te maken, ontwerpen we een deterministische sandbox voor API-herhaling die omgevingsvariantie van live diensten elimineert. Verder stellen we een multidimensionaal evaluatieprotocol voor, gecentreerd rond uitkomstvaliditeit, aangevuld met beoordelingen van instructiebegrip, planning, toolgebruik en efficiëntie. Met MobilityBench evalueren we meerdere op LLM's gebaseerde routeplanningsagents in diverse realistische mobiliteitsscenario's en bieden we een diepgaande analyse van hun gedrag en prestaties. Onze bevindingen tonen aan dat huidige modellen competent presteren bij Basisinformatieretrieval en Routeplannings taken, maar aanzienlijk moeite hebben met Routeplanning met Preferentierestricties, wat duidt op aanzienlijke verbeteringsmogelijkheden voor gepersonaliseerde mobiliteitstoepassingen. We stellen de benchmarkdata, evaluatietoolkit en documentatie openbaar beschikbaar op https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: Een Benchmark voor het Evalueren van Routeplanningsagenten in Realistische Mobiliteitsscenario's

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Samenvatting

Support