MobilityBench: Um Benchmark para Avaliar Agentes de Planejamento de Rotas em Cenários de Mobilidade do Mundo Real

Resumo

Agentes de planejamento de rotas baseados em grandes modelos de linguagem (LLMs) surgiram como um paradigma promissor para apoiar a mobilidade humana cotidiana por meio de interação em linguagem natural e tomada de decisão mediada por ferramentas. No entanto, a avaliação sistemática em contextos de mobilidade do mundo real é dificultada por demandas de roteamento diversificadas, serviços de mapeamento não determinísticos e reprodutibilidade limitada. Neste estudo, apresentamos o MobilityBench, um benchmark escalável para avaliar agentes de planejamento de rotas baseados em LLM em cenários de mobilidade do mundo real. O MobilityBench é construído a partir de consultas anônimas de usuários reais em larga escala, coletadas do Amap, e abrange um amplo espectro de intenções de planejamento de rotas em várias cidades ao redor do mundo. Para permitir uma avaliação reproduzível de ponta a ponta, projetamos um ambiente de simulação (sandbox) de reexecução de API determinístico que elimina a variância ambiental dos serviços ao vivo. Propomos ainda um protocolo de avaliação multidimensional centrado na validade do resultado, complementado por avaliações de compreensão de instruções, planejamento, uso de ferramentas e eficiência. Utilizando o MobilityBench, avaliamos vários agentes de planejamento de rotas baseados em LLM em diversos cenários de mobilidade do mundo real e fornecemos uma análise aprofundada de seus comportamentos e desempenho. Nossos resultados revelam que os modelos atuais têm um desempenho competente em tarefas básicas de Recuperação de Informações e Planejamento de Rotas, mas lutam consideravelmente com o Planejamento de Rotas com Restrições de Preferência, destacando um espaço significativo para melhorias em aplicações de mobilidade personalizada. Disponibilizamos publicamente os dados do benchmark, o kit de ferramentas de avaliação e a documentação em https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: Um Benchmark para Avaliar Agentes de Planejamento de Rotas em Cenários de Mobilidade do Mundo Real

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Resumo

Support