MobilityBench: Ein Benchmark zur Bewertung von Routenplanungsagenten in realen Mobilitätsszenarien

Zusammenfassung

Von großen Sprachmodellen (LLMs) gestützte Routenplanungs-Agenten haben sich als vielversprechendes Paradigma erwiesen, um die alltägliche menschliche Mobilität durch natürliche Sprachinteraktion und werkzeugvermittelte Entscheidungsfindung zu unterstützen. Eine systematische Evaluation in realen Mobilitätsszenarien wird jedoch durch vielfältige Routenanforderungen, nicht-deterministische Kartendienste und eingeschränkte Reproduzierbarkeit erschwert. In dieser Studie stellen wir MobilityBench vor, einen skalierbaren Benchmark zur Bewertung LLM-basierter Routenplanungs-Agenten in realen Mobilitätsszenarien. MobilityBench wurde aus groß angelegten, anonymisierten Echtzeit-Nutzeranfragen von Amap erstellt und deckt ein breites Spektrum an Routenplanungsabsichten in mehreren Städten weltweit ab. Um eine reproduzierbare End-to-End-Evaluation zu ermöglichen, entwerfen wir eine deterministische API-Replay-Sandbox, die Umgebungsvarianzen von Live-Diensten eliminiert. Darüber hinaus schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das auf der Ergebnisvalidität zentriert ist und durch Bewertungen des Instruktionsverständnisses, der Planung, der Werkzeugnutzung und der Effizienz ergänzt wird. Mit MobilityBench evaluieren wir mehrere LLM-basierte Routenplanungs-Agenten in verschiedenen realen Mobilitätsszenarien und liefern eine eingehende Analyse ihres Verhaltens und ihrer Leistung. Unsere Ergebnisse zeigen, dass aktuelle Modelle bei grundlegenden Aufgaben der Informationsbeschaffung und Routenplanung kompetent abschneiden, jedoch erhebliche Schwierigkeiten mit präferenzbeschränkter Routenplanung haben, was signifikanten Verbesserungsbedarf bei personalisierten Mobilitätsanwendungen aufzeigt. Wir veröffentlichen die Benchmark-Daten, das Evaluations-Toolkit und die Dokumentation öffentlich unter https://github.com/AMAP-ML/MobilityBench.

English

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: Ein Benchmark zur Bewertung von Routenplanungsagenten in realen Mobilitätsszenarien

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Zusammenfassung

Support