AlphaTransit: Aprendizaje para diseñar rutas de transporte a escala urbana

Resumen

El diseño de una red de tránsito requiere muchas decisiones secuenciales de extensión de rutas, pero su calidad suele ser visible solo después de ensamblar la red completa. Este desafío de retroalimentación retardada se encuentra en el corazón del Problema de Diseño de Red de Rutas de Tránsito (TRNDP), donde las interacciones entre rutas pueden ser engañosas: una extensión que parece útil a nivel local puede crear cuellos de botella en los transbordos, generar superposiciones redundantes o reducir el rendimiento general. Para guiar la construcción de rutas bajo retroalimentación retardada del simulador, presentamos AlphaTransit, un marco de planificación basado en búsqueda para el diseño de redes de autobuses a escala urbana. AlphaTransit combina la Búsqueda de Árboles Monte Carlo (MCTS) con una red neuronal de política-valor: la política propone extensiones de rutas, el valor estima la calidad del diseño aguas abajo, y la búsqueda utiliza estas predicciones para refinar cada decisión. Esto proporciona una anticipación en el momento de la decisión durante la construcción de rutas sin necesidad de ejecutar simulaciones completas dentro del árbol de búsqueda. Evaluamos AlphaTransit en un nuevo punto de referencia TRNDP para Bloomington, con una topología vial realista y demanda derivada del censo, bajo configuraciones de demanda de tránsito mixta y total. En la red de Bloomington, AlphaTransit alcanza la tasa de servicio más alta en ambas configuraciones de demanda, llegando al 54.6% y 82.1%, respectivamente. En comparación con el aprendizaje por refuerzo sin búsqueda, esto corresponde a ganancias en la tasa de servicio del 9.9% y 11.4%; en comparación con MCTS sin guía aprendida, corresponde a ganancias del 2.5% y 11.2%. Estos resultados sugieren que combinar la guía aprendida con MCTS es más efectivo que usar cualquiera de los enfoques por separado para el diseño de redes de tránsito. Nuestro código y datos están disponibles públicamente en https://github.com/poudel-bibek/AlphaTransit.

English

Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full network is assembled. This delayed-feedback challenge lies at the heart of the Transit Route Network Design Problem (TRNDP), where route interactions can be deceptive: an extension that appears useful locally can create transfer bottlenecks, produce redundant overlap, or reduce overall throughput. To guide route construction under delayed simulator feedback, we introduce AlphaTransit, a search-based planning framework for cityscale bus network design. AlphaTransit couples Monte Carlo Tree Search (MCTS) with a neural policy-value network: the policy proposes route extensions, the value estimates downstream design quality, and search uses these predictions to refine each decision. This provides decision-time lookahead during route construction without running simulator rollouts inside the search tree. We evaluate AlphaTransit on a new Bloomington TRNDP benchmark with realistic road topology and censusderived demand, under mixed and full transit demand settings. In the Bloomington network, AlphaTransit attains the highest service rate in both demand settings, reaching 54.6% and 82.1%, respectively. Relative to reinforcement learning without search, these correspond to 9.9% and 11.4% service rate gains; relative to MCTS without learned guidance, they correspond to 2.5% and 11.2% gains. These results suggest that coupling learned guidance with MCTS is more effective than using either approach alone for transit network design. Our code and data are publicly available in https://github.com/poudel-bibek/AlphaTransit.