AlphaTransit: Обучение проектированию городских транзитных маршрутов

Аннотация

Проектирование транзитной сети требует множества последовательных решений о продлении маршрутов, однако их качество часто становится очевидным только после сборки полной сети. Эта проблема отсроченной обратной связи лежит в основе задачи проектирования транзитной маршрутной сети (TRNDP), где взаимодействия маршрутов могут быть обманчивыми: продление, которое кажется полезным на локальном уровне, может создать узкие места пересадок, привести к избыточному перекрытию или снизить общую пропускную способность. Для управления построением маршрутов в условиях отсроченной обратной связи от симулятора мы представляем AlphaTransit — поисковую структуру планирования для проектирования городских автобусных сетей. AlphaTransit объединяет поиск по дереву Монте-Карло (MCTS) с нейронной сетью политики и ценности: политика предлагает продления маршрутов, ценность оценивает последующее качество проектирования, а поиск использует эти прогнозы для уточнения каждого решения. Это обеспечивает упреждающее принятие решений во время построения маршрутов без выполнения симуляционных прогонов внутри дерева поиска. Мы оцениваем AlphaTransit на новом эталонном тесте TRNDP для Блумингтона с реалистичной дорожной топологией и спросом, полученным из данных переписи, в условиях смешанного и полного транзитного спроса. В сети Блумингтона AlphaTransit достигает наивысшего уровня обслуживания в обоих сценариях спроса, достигая 54,6% и 82,1% соответственно. По сравнению с обучением с подкреплением без поиска, это соответствует увеличению уровня обслуживания на 9,9% и 11,4%; по сравнению с MCTS без обученного управления — на 2,5% и 11,2%. Эти результаты позволяют предположить, что объединение обученного управления с MCTS более эффективно, чем использование любого из подходов по отдельности для проектирования транзитных сетей. Наш код и данные общедоступны по адресу https://github.com/poudel-bibek/AlphaTransit.

English

Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full network is assembled. This delayed-feedback challenge lies at the heart of the Transit Route Network Design Problem (TRNDP), where route interactions can be deceptive: an extension that appears useful locally can create transfer bottlenecks, produce redundant overlap, or reduce overall throughput. To guide route construction under delayed simulator feedback, we introduce AlphaTransit, a search-based planning framework for cityscale bus network design. AlphaTransit couples Monte Carlo Tree Search (MCTS) with a neural policy-value network: the policy proposes route extensions, the value estimates downstream design quality, and search uses these predictions to refine each decision. This provides decision-time lookahead during route construction without running simulator rollouts inside the search tree. We evaluate AlphaTransit on a new Bloomington TRNDP benchmark with realistic road topology and censusderived demand, under mixed and full transit demand settings. In the Bloomington network, AlphaTransit attains the highest service rate in both demand settings, reaching 54.6% and 82.1%, respectively. Relative to reinforcement learning without search, these correspond to 9.9% and 11.4% service rate gains; relative to MCTS without learned guidance, they correspond to 2.5% and 11.2% gains. These results suggest that coupling learned guidance with MCTS is more effective than using either approach alone for transit network design. Our code and data are publicly available in https://github.com/poudel-bibek/AlphaTransit.