TransitLM: Um Dataset em Grande Escala e Benchmark para Geração de Rotas de Trânsito Sem Mapas

Resumo

O planejamento de rotas de transporte público tradicionalmente depende de infraestrutura de mapas estruturados e mecanismos de roteamento complexos, não havendo nenhum conjunto de dados existente que suporte o treinamento de modelos para contornar essa dependência. Apresentamos o TransitLM, um conjunto de dados em larga escala com mais de 13 milhões de registros de planejamento de rotas de transporte público de quatro cidades chinesas, abrangendo 120.845 estações e 13.666 linhas, disponibilizado como um corpus de pré-treinamento contínuo e dados de referência para três tarefas de avaliação com métricas complementares. Experimentos mostram que um LLM treinado no TransitLM produz rotas estruturalmente válidas com alta precisão e fundamenta implicitamente coordenadas GPS arbitrárias nas estações apropriadas, sem qualquer mapeamento explícito. Esses resultados demonstram que o planejamento de rotas de transporte público pode ser aprendido inteiramente a partir de dados, permitindo a geração de rotas ponta a ponta e sem mapas diretamente a partir de informações de origem e destino. O conjunto de dados e os benchmarks estão disponíveis em https://huggingface.co/datasets/GD-ML/TransitLM, com o código de avaliação em https://github.com/HotTricker/TransitLM.

English

Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics. Experiments show that an LLM trained on TransitLM produces structurally valid routes at high accuracy and implicitly grounds arbitrary GPS coordinates to appropriate stations without any explicit mapping. These results demonstrate that transit route planning can be learned entirely from data, enabling end-to-end, map-free route generation directly from origin-destination information. The dataset and benchmark are available at https://huggingface.co/datasets/GD-ML/TransitLM, with evaluation code at https://github.com/HotTricker/TransitLM.