AlphaTransit: Aprendendo a Projetar Rotas de Transporte Público em Escala Urbana

Resumo

Projetar uma rede de transporte público requer muitas decisões sequenciais de extensão de rotas, mas a qualidade dessas decisões frequentemente só se torna aparente após a montagem completa da rede. Esse desafio de feedback atrasado está no cerne do Problema de Projeto de Rede de Rotas de Transporte Público (TRNDP), onde as interações entre rotas podem ser enganosas: uma extensão que parece útil localmente pode criar gargalos de transferência, produzir sobreposições redundantes ou reduzir a capacidade total do sistema. Para orientar a construção de rotas sob feedback atrasado do simulador, apresentamos o AlphaTransit, um framework de planejamento baseado em busca para o projeto de redes de ônibus em escala urbana. O AlphaTransit combina a Busca em Árvore de Monte Carlo (MCTS) com uma rede neural política-valor: a política propõe extensões de rotas, o valor estima a qualidade futura do projeto, e a busca utiliza essas predições para refinar cada decisão. Isso proporciona antecipação no momento da decisão durante a construção de rotas, sem a necessidade de executar simulações completas do simulador dentro da árvore de busca. Avaliamos o AlphaTransit em um novo benchmark TRNDP para Bloomington, com topologia viária realista e demanda derivada de dados censitários, sob cenários de demanda mista e exclusiva de transporte público. Na rede de Bloomington, o AlphaTransit atinge a maior taxa de serviço em ambos os cenários de demanda, alcançando 54,6% e 82,1%, respectivamente. Em comparação com aprendizado por reforço sem busca, esses valores correspondem a ganhos de 9,9% e 11,4% na taxa de serviço; em relação ao MCTS sem orientação aprendida, os ganhos são de 2,5% e 11,2%. Esses resultados sugerem que a combinação de orientação aprendida com MCTS é mais eficaz do que usar qualquer uma das abordagens isoladamente para o projeto de redes de transporte público. Nosso código e dados estão disponíveis publicamente em https://github.com/poudel-bibek/AlphaTransit.

English

Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full network is assembled. This delayed-feedback challenge lies at the heart of the Transit Route Network Design Problem (TRNDP), where route interactions can be deceptive: an extension that appears useful locally can create transfer bottlenecks, produce redundant overlap, or reduce overall throughput. To guide route construction under delayed simulator feedback, we introduce AlphaTransit, a search-based planning framework for cityscale bus network design. AlphaTransit couples Monte Carlo Tree Search (MCTS) with a neural policy-value network: the policy proposes route extensions, the value estimates downstream design quality, and search uses these predictions to refine each decision. This provides decision-time lookahead during route construction without running simulator rollouts inside the search tree. We evaluate AlphaTransit on a new Bloomington TRNDP benchmark with realistic road topology and censusderived demand, under mixed and full transit demand settings. In the Bloomington network, AlphaTransit attains the highest service rate in both demand settings, reaching 54.6% and 82.1%, respectively. Relative to reinforcement learning without search, these correspond to 9.9% and 11.4% service rate gains; relative to MCTS without learned guidance, they correspond to 2.5% and 11.2% gains. These results suggest that coupling learned guidance with MCTS is more effective than using either approach alone for transit network design. Our code and data are publicly available in https://github.com/poudel-bibek/AlphaTransit.