MobilityBench: Un Benchmark per la Valutazione di Agenti di Pianificazione Percorsi in Scenari di Mobilità del Mondo Reale

Abstract

Gli agenti di pianificazione di percorsi basati su grandi modelli linguistici (LLM) sono emersi come un paradigma promettente per supportare la mobilità umana quotidiana attraverso l'interazione in linguaggio naturale e la presa di decisioni mediata da strumenti. Tuttavia, una valutazione sistematica in contesti di mobilità reali è ostacolata da richieste di routing diversificate, servizi di mappatura non deterministici e una limitata riproducibilità. In questo studio, introduciamo MobilityBench, un benchmark scalabile per valutare gli agenti di pianificazione di percorsi basati su LLM in scenari di mobilità reali. MobilityBench è costruito a partire da query anonime di utenti reali raccolte su larga scala da Amap e copre un ampio spettro di intenti di pianificazione di percorsi in più città in tutto il mondo. Per consentire una valutazione end-to-end riproducibile, progettiamo una sandbox deterministica di riproduzione API che elimina la varianza ambientale dei servizi in tempo reale. Proponiamo inoltre un protocollo di valutazione multidimensionale incentrato sulla validità del risultato, integrato da valutazioni della comprensione delle istruzioni, della pianificazione, dell'uso degli strumenti e dell'efficienza. Utilizzando MobilityBench, valutiamo molteplici agenti di pianificazione di percorsi basati su LLM in diversi scenari di mobilità reale e forniamo un'analisi approfondita dei loro comportamenti e prestazioni. I nostri risultati rivelano che i modelli attuali performano in modo competente nei compiti di Recupero di informazioni di base e Pianificazione di percorsi, ma hanno notevoli difficoltà con la Pianificazione di percorsi con Vincoli di preferenza, sottolineando un margine di miglioramento significativo nelle applicazioni di mobilità personalizzate. Rilasciamo pubblicamente i dati del benchmark, il toolkit di valutazione e la documentazione all'indirizzo https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: Un Benchmark per la Valutazione di Agenti di Pianificazione Percorsi in Scenari di Mobilità del Mondo Reale

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Abstract

Support