AlphaTransit: Leren Ontwerpen van Stadsbrede Openbaarvervoersroutes

Samenvatting

Het ontwerpen van een vervoersnetwerk vereist vele opeenvolgende beslissingen over routeverlengingen, maar hun kwaliteit is vaak pas zichtbaar nadat het volledige netwerk is samengesteld. Deze uitdaging van vertraagde terugkoppeling vormt de kern van het Transit Route Network Design Problem (TRNDP), waar route-interacties misleidend kunnen zijn: een verlenging die lokaal nuttig lijkt, kan overstapknelpunten creëren, redundante overlap veroorzaken of de totale doorvoer verminderen. Om routeconstructie te begeleiden bij vertraagde simulatorterugkoppeling introduceren we AlphaTransit, een op zoekmethoden gebaseerd planningsraamwerk voor het ontwerpen van stadsbrede busnetwerken. AlphaTransit koppelt Monte Carlo Tree Search (MCTS) aan een neuraal beleidswaardennetwerk: het beleid stelt routeverlengingen voor, de waarde schat de stroomafwaartse ontwerpkwaliteit, en de zoekopdracht gebruikt deze voorspellingen om elke beslissing te verfijnen. Dit biedt vooruitkijken tijdens de routeconstructie zonder simulatorrollouts binnen de zoekboom uit te voeren. We evalueren AlphaTransit op een nieuwe Bloomington TRNDP-benchmark met realistische wegtopologie en uit censusgegevens afgeleide vraag, onder gemengde en volledige vervoersvraaginstellingen. In het Bloomington-netwerk behaalt AlphaTransit de hoogste servicegraad in beide vraaginstellingen, respectievelijk 54,6% en 82,1%. Ten opzichte van reinforcement learning zonder zoekmethoden komen deze overeen met winsten in servicegraad van 9,9% en 11,4%; ten opzichte van MCTS zonder aangeleerde begeleiding komen ze overeen met winsten van 2,5% en 11,2%. Deze resultaten suggereren dat het koppelen van aangeleerde begeleiding aan MCTS effectiever is dan het gebruik van beide benaderingen afzonderlijk voor het ontwerpen van vervoersnetwerken. Onze code en gegevens zijn openbaar beschikbaar op https://github.com/poudel-bibek/AlphaTransit.

English

Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full network is assembled. This delayed-feedback challenge lies at the heart of the Transit Route Network Design Problem (TRNDP), where route interactions can be deceptive: an extension that appears useful locally can create transfer bottlenecks, produce redundant overlap, or reduce overall throughput. To guide route construction under delayed simulator feedback, we introduce AlphaTransit, a search-based planning framework for cityscale bus network design. AlphaTransit couples Monte Carlo Tree Search (MCTS) with a neural policy-value network: the policy proposes route extensions, the value estimates downstream design quality, and search uses these predictions to refine each decision. This provides decision-time lookahead during route construction without running simulator rollouts inside the search tree. We evaluate AlphaTransit on a new Bloomington TRNDP benchmark with realistic road topology and censusderived demand, under mixed and full transit demand settings. In the Bloomington network, AlphaTransit attains the highest service rate in both demand settings, reaching 54.6% and 82.1%, respectively. Relative to reinforcement learning without search, these correspond to 9.9% and 11.4% service rate gains; relative to MCTS without learned guidance, they correspond to 2.5% and 11.2% gains. These results suggest that coupling learned guidance with MCTS is more effective than using either approach alone for transit network design. Our code and data are publicly available in https://github.com/poudel-bibek/AlphaTransit.