MobilityBench: Un Punto de Referencia para Evaluar Agentes de Planificación de Rutas en Escenarios de Movilidad del Mundo Real

Resumen

Los agentes de planificación de rutas impulsados por grandes modelos de lenguaje (LLM) han surgido como un paradigma prometedor para apoyar la movilidad humana cotidiana mediante la interacción en lenguaje natural y la toma de decisiones mediada por herramientas. Sin embargo, la evaluación sistemática en entornos de movilidad del mundo real se ve dificultada por la diversidad de demandas de enrutamiento, los servicios de mapas no deterministas y la reproducibilidad limitada. En este estudio, presentamos MobilityBench, un punto de referencia escalable para evaluar agentes de planificación de rutas basados en LLM en escenarios de movilidad del mundo real. MobilityBench se construye a partir de consultas anónimas de usuarios reales recopiladas a gran escala desde Amap y cubre un amplio espectro de intenciones de planificación de rutas en múltiples ciudades de todo el mundo. Para permitir una evaluación reproducible de extremo a extremo, diseñamos un entorno de pruebas de repetición de API determinista que elimina la variabilidad ambiental de los servicios en vivo. Además, proponemos un protocolo de evaluación multidimensional centrado en la validez del resultado, complementado con evaluaciones de comprensión de instrucciones, planificación, uso de herramientas y eficiencia. Utilizando MobilityBench, evaluamos múltiples agentes de planificación de rutas basados en LLM en diversos escenarios de movilidad del mundo real y proporcionamos un análisis en profundidad de sus comportamientos y rendimiento. Nuestros hallazgos revelan que los modelos actuales se desempeñan competentemente en tareas básicas de recuperación de información y planificación de rutas, pero tienen dificultades considerables con la Planificación de Rutas con Restricciones de Preferencia, lo que subraya un margen de mejora significativo en las aplicaciones de movilidad personalizada. Publicamos los datos de referencia, el kit de herramientas de evaluación y la documentación en https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: Un Punto de Referencia para Evaluar Agentes de Planificación de Rutas en Escenarios de Movilidad del Mundo Real

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Resumen

Support