AlphaTransit: Lernen, stadtweite Transitrouten zu entwerfen

Zusammenfassung

Die Planung eines Transitnetzes erfordert viele aufeinanderfolgende Entscheidungen zur Streckenerweiterung, deren Qualität jedoch oft erst nach der vollständigen Netzwerkkonfiguration sichtbar wird. Diese Herausforderung der verzögerten Rückmeldung steht im Mittelpunkt des Transitnetzplanungsproblems (TRNDP), bei dem Wechselwirkungen zwischen Strecken trügerisch sein können: Eine lokal nützlich erscheinende Erweiterung kann Umsteigeengpässe schaffen, redundante Überlappungen erzeugen oder den Gesamtdurchsatz verringern. Um den Streckenaufbau unter verzögerter Simulatorrückmeldung zu leiten, führen wir AlphaTransit ein, ein suchbasiertes Planungsframework für die Busnetzplanung auf Stadtebene. AlphaTransit koppelt Monte-Carlo-Baumsuche (MCTS) mit einem neuronalen Policy-Value-Netzwerk: Die Policy schlägt Streckenerweiterungen vor, der Value bewertet die nachgelagerte Entwurfsqualität, und die Suche verwendet diese Vorhersagen, um jede Entscheidung zu verfeinern. Dies ermöglicht eine Vorausschau zum Entscheidungszeitpunkt während des Streckenaufbaus, ohne dass innerhalb des Suchbaums Simulator-Rollouts durchgeführt werden müssen. Wir evaluieren AlphaTransit anhand eines neuen Bloomington-TRNDP-Benchmarks mit realistischer Straßentopologie und zensusbasierter Nachfrage unter gemischten und vollständigen Nachfragebedingungen für den öffentlichen Nahverkehr. Im Bloomington-Netzwerk erreicht AlphaTransit in beiden Nachfragebedingungen die höchste Bedienungsrate, mit 54,6 % bzw. 82,1 %. Im Vergleich zu Reinforcement Learning ohne Suche entsprechen dies Steigerungen der Bedienungsrate von 9,9 % bzw. 11,4 %; im Vergleich zu MCTS ohne gelernte Führung entsprechen sie Steigerungen von 2,5 % bzw. 11,2 %. Diese Ergebnisse deuten darauf hin, dass die Kopplung von gelernten Führung mit MCTS für die Transitnetzplanung effektiver ist als die alleinige Verwendung eines der beiden Ansätze. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/poudel-bibek/AlphaTransit.

English

Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full network is assembled. This delayed-feedback challenge lies at the heart of the Transit Route Network Design Problem (TRNDP), where route interactions can be deceptive: an extension that appears useful locally can create transfer bottlenecks, produce redundant overlap, or reduce overall throughput. To guide route construction under delayed simulator feedback, we introduce AlphaTransit, a search-based planning framework for cityscale bus network design. AlphaTransit couples Monte Carlo Tree Search (MCTS) with a neural policy-value network: the policy proposes route extensions, the value estimates downstream design quality, and search uses these predictions to refine each decision. This provides decision-time lookahead during route construction without running simulator rollouts inside the search tree. We evaluate AlphaTransit on a new Bloomington TRNDP benchmark with realistic road topology and censusderived demand, under mixed and full transit demand settings. In the Bloomington network, AlphaTransit attains the highest service rate in both demand settings, reaching 54.6% and 82.1%, respectively. Relative to reinforcement learning without search, these correspond to 9.9% and 11.4% service rate gains; relative to MCTS without learned guidance, they correspond to 2.5% and 11.2% gains. These results suggest that coupling learned guidance with MCTS is more effective than using either approach alone for transit network design. Our code and data are publicly available in https://github.com/poudel-bibek/AlphaTransit.