TransitLM: Крупномасштабный набор данных и бенчмарк для генерации маршрутов общественного транспорта без использования карт

Аннотация

Планирование маршрутов общественного транспорта традиционно зависит от структурированной картографической инфраструктуры и сложных механизмов прокладки маршрутов, при этом не существует ни одного существующего набора данных, который поддерживал бы обучение моделей для обхода этой зависимости. Мы представляем TransitLM — крупномасштабный набор данных, содержащий более 13 миллионов записей планирования маршрутов общественного транспорта из четырёх китайских городов, охватывающий 120 845 станций и 13 666 линий. Данный набор публикуется как корпус для непрерывного предобучения и эталонные данные для трёх задач оценки с взаимодополняющими метриками. Эксперименты показывают, что большая языковая модель (LLM), обученная на TransitLM, генерирует структурно корректные маршруты с высокой точностью и неявно привязывает произвольные GPS-координаты к соответствующим станциям без какого-либо явного отображения. Эти результаты демонстрируют, что планирование маршрутов общественного транспорта может быть полностью изучено на основе данных, что обеспечивает сквозную генерацию маршрутов без карт непосредственно на основе информации о пунктах отправления и назначения. Набор данных и эталонные данные доступны по адресу https://huggingface.co/datasets/GD-ML/TransitLM, а код для оценки — по адресу https://github.com/HotTricker/TransitLM.

English

Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics. Experiments show that an LLM trained on TransitLM produces structurally valid routes at high accuracy and implicitly grounds arbitrary GPS coordinates to appropriate stations without any explicit mapping. These results demonstrate that transit route planning can be learned entirely from data, enabling end-to-end, map-free route generation directly from origin-destination information. The dataset and benchmark are available at https://huggingface.co/datasets/GD-ML/TransitLM, with evaluation code at https://github.com/HotTricker/TransitLM.