TransitLM : un jeu de données à grande échelle et un benchmark pour la génération d'itinéraires de transport en commun sans carte

Résumé

La planification d'itinéraires de transport en commun repose traditionnellement sur une infrastructure cartographique structurée et des moteurs de routage complexes, et aucun ensemble de données existant ne permet d'entraîner des modèles pour contourner cette dépendance. Nous présentons TransitLM, un ensemble de données à grande échelle comprenant plus de 13 millions d'enregistrements de planification d'itinéraires de transport en commun provenant de quatre villes chinoises, couvrant 120 845 stations et 13 666 lignes, publié comme corpus de pré-entraînement continu et données de référence pour trois tâches d'évaluation avec des métriques complémentaires. Les expériences montrant qu'un LLM entraîné sur TransitLM produit des itinéraires structurellement valides avec une haute précision et ancre implicitement des coordonnées GPS arbitraires aux stations appropriées sans aucune cartographie explicite. Ces résultats démontrent que la planification d'itinéraires de transport en commun peut être entièrement apprise à partir de données, permettant une génération d'itinéraires de bout en bout et sans carte directement à partir d'informations origine-destination. L'ensemble de données et les références sont disponibles à l'adresse https://huggingface.co/datasets/GD-ML/TransitLM, avec le code d'évaluation à https://github.com/HotTricker/TransitLM.

English

Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics. Experiments show that an LLM trained on TransitLM produces structurally valid routes at high accuracy and implicitly grounds arbitrary GPS coordinates to appropriate stations without any explicit mapping. These results demonstrate that transit route planning can be learned entirely from data, enabling end-to-end, map-free route generation directly from origin-destination information. The dataset and benchmark are available at https://huggingface.co/datasets/GD-ML/TransitLM, with evaluation code at https://github.com/HotTricker/TransitLM.