ChatPaper.aiChatPaper

TransitLM: Een grootschalige dataset en benchmark voor kaartvrije transitroutegeneratie

TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

May 21, 2026
Auteurs: Hanyu Guo, Jiedong Yang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu
cs.AI

Samenvatting

Openbaar vervoerrouteplanning is traditioneel afhankelijk van gestructureerde kaartinfrastructuur en complexe routeringsalgoritmen, en er bestaat geen bestaande dataset die het trainen van modellen ondersteunt om deze afhankelijkheid te omzeilen. Wij presenteren TransitLM, een grootschalige dataset met meer dan 13 miljoen routeplanningsrecords van openbaar vervoer uit vier Chinese steden, die 120.845 stations en 13.666 lijnen beslaat, uitgebracht als een continu pre-trainingscorpus en benchmarkdata voor drie evaluatietaken met complementaire metrieken. Experimenten tonen aan dat een LLM getraind op TransitLM structureel geldige routes produceert met hoge nauwkeurigheid en impliciet willekeurige GPS-coördinaten koppelt aan geschikte stations zonder enige expliciete mapping. Deze resultaten demonstreren dat routeplanning voor openbaar vervoer volledig uit data kan worden geleerd, wat end-to-end, kaartvrije routegeneratie mogelijk maakt, direct op basis van herkomst-bestemmingsinformatie. De dataset en benchmark zijn beschikbaar op https://huggingface.co/datasets/GD-ML/TransitLM, met evaluatiecode op https://github.com/HotTricker/TransitLM.
English
Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics. Experiments show that an LLM trained on TransitLM produces structurally valid routes at high accuracy and implicitly grounds arbitrary GPS coordinates to appropriate stations without any explicit mapping. These results demonstrate that transit route planning can be learned entirely from data, enabling end-to-end, map-free route generation directly from origin-destination information. The dataset and benchmark are available at https://huggingface.co/datasets/GD-ML/TransitLM, with evaluation code at https://github.com/HotTricker/TransitLM.