TransitLM: Ein großangelegter Datensatz und Benchmark für kartenlose Transitroutengenerierung
TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation
May 21, 2026
Autoren: Hanyu Guo, Jiedong Yang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu
cs.AI
Zusammenfassung
Die Routenplanung im öffentlichen Nahverkehr stützt sich traditionell auf strukturierte Karteninfrastrukturen und komplexe Routing-Engines. Bislang existiert kein Datensatz, der das Training von Modellen zur Umgehung dieser Abhängigkeit ermöglicht. Wir stellen TransitLM vor, einen groß angelegten Datensatz mit über 13 Millionen Routenplanungsdatensätzen des öffentlichen Nahverkehrs aus vier chinesischen Städten, der 120.845 Haltestellen und 13.666 Linien umfasst. Der Datensatz wird als Korpus für kontinuierliches Vortraining sowie als Benchmark-Daten für drei Evaluationsaufgaben mit komplementären Metriken veröffentlicht. Experimente zeigen, dass ein auf TransitLM trainierter LLM strukturell gültige Routen mit hoher Genauigkeit erzeugt und beliebige GPS-Koordinaten implizit den entsprechenden Haltestellen zuordnet – ohne explizite Kartierung. Diese Ergebnisse belegen, dass eine Routenplanung im öffentlichen Nahverkehr vollständig aus Daten erlernbar ist, was eine end-to-end-, kartenfreie Routengenerierung direkt aus Start-Ziel-Informationen ermöglicht. Der Datensatz und die Benchmark sind verfügbar unter https://huggingface.co/datasets/GD-ML/TransitLM, der Evaluationscode unter https://github.com/HotTricker/TransitLM.
English
Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics. Experiments show that an LLM trained on TransitLM produces structurally valid routes at high accuracy and implicitly grounds arbitrary GPS coordinates to appropriate stations without any explicit mapping. These results demonstrate that transit route planning can be learned entirely from data, enabling end-to-end, map-free route generation directly from origin-destination information. The dataset and benchmark are available at https://huggingface.co/datasets/GD-ML/TransitLM, with evaluation code at https://github.com/HotTricker/TransitLM.