TransitLM: Un conjunto de datos a gran escala y un benchmark para la generación de rutas de tránsito sin mapas

Resumen

La planificación de rutas de transporte público tradicionalmente depende de infraestructura de mapas estructurados y motores de enrutamiento complejos, y no existe ningún conjunto de datos existente que permita entrenar modelos para eludir esta dependencia. Presentamos TransitLM, un conjunto de datos a gran escala con más de 13 millones de registros de planificación de rutas de transporte público de cuatro ciudades chinas que abarcan 120,845 estaciones y 13,666 líneas, publicado como un corpus de preentrenamiento continuo y datos de referencia para tres tareas de evaluación con métricas complementarias. Los experimentos muestran que un LLM entrenado en TransitLM produce rutas estructuralmente válidas con alta precisión y vincula implícitamente coordenadas GPS arbitrarias a las estaciones adecuadas sin ningún mapeo explícito. Estos resultados demuestran que la planificación de rutas de transporte público puede aprenderse completamente a partir de datos, permitiendo la generación de rutas de extremo a extremo y sin mapas directamente a partir de información de origen y destino. El conjunto de datos y los puntos de referencia están disponibles en https://huggingface.co/datasets/GD-ML/TransitLM, y el código de evaluación en https://github.com/HotTricker/TransitLM.

English

Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics. Experiments show that an LLM trained on TransitLM produces structurally valid routes at high accuracy and implicitly grounds arbitrary GPS coordinates to appropriate stations without any explicit mapping. These results demonstrate that transit route planning can be learned entirely from data, enabling end-to-end, map-free route generation directly from origin-destination information. The dataset and benchmark are available at https://huggingface.co/datasets/GD-ML/TransitLM, with evaluation code at https://github.com/HotTricker/TransitLM.