AlphaTransit : Apprendre à concevoir des itinéraires de transport en commun à l'échelle de la ville

Résumé

La conception d'un réseau de transport en commun nécessite de nombreuses décisions séquentielles d'extension d'itinéraires, mais leur qualité n'est souvent perceptible qu'après l'assemblage complet du réseau. Ce défi de rétroaction tardive est au cœur du problème de conception des réseaux de lignes de transport en commun (TRNDP), où les interactions entre itinéraires peuvent être trompeuses : une extension qui semble utile localement peut créer des goulots d'étranglement de correspondance, produire des chevauchements redondants ou réduire le débit global. Pour guider la construction d'itinéraires sous rétroaction tardive du simulateur, nous présentons AlphaTransit, un cadre de planification basé sur la recherche pour la conception de réseaux de bus à l'échelle d'une ville. AlphaTransit couple la recherche arborescente Monte-Carlo (MCTS) avec un réseau neuronal politique-valeur : la politique propose des extensions d'itinéraires, la valeur estime la qualité aval de la conception, et la recherche utilise ces prédictions pour affiner chaque décision. Cela permet une anticipation au moment de la décision pendant la construction d'itinéraires, sans exécuter de simulations complètes dans l'arbre de recherche. Nous évaluons AlphaTransit sur un nouveau benchmark TRNDP pour Bloomington, avec une topologie routière réaliste et une demande dérivée du recensement, dans des contextes de demande de transport mixte et intégrale. Dans le réseau de Bloomington, AlphaTransit atteint le taux de service le plus élevé dans les deux contextes de demande, atteignant respectivement 54,6 % et 82,1 %. Par rapport à l'apprentissage par renforcement sans recherche, cela correspond à des gains de taux de service de 9,9 % et 11,4 % ; par rapport à la MCTS sans guidance apprise, cela correspond à des gains de 2,5 % et 11,2 %. Ces résultats suggèrent que le couplage de la guidance apprise avec la MCTS est plus efficace que l'utilisation de l'une ou l'autre approche seule pour la conception de réseaux de transport en commun. Notre code et nos données sont disponibles publiquement sur https://github.com/poudel-bibek/AlphaTransit.

English

Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full network is assembled. This delayed-feedback challenge lies at the heart of the Transit Route Network Design Problem (TRNDP), where route interactions can be deceptive: an extension that appears useful locally can create transfer bottlenecks, produce redundant overlap, or reduce overall throughput. To guide route construction under delayed simulator feedback, we introduce AlphaTransit, a search-based planning framework for cityscale bus network design. AlphaTransit couples Monte Carlo Tree Search (MCTS) with a neural policy-value network: the policy proposes route extensions, the value estimates downstream design quality, and search uses these predictions to refine each decision. This provides decision-time lookahead during route construction without running simulator rollouts inside the search tree. We evaluate AlphaTransit on a new Bloomington TRNDP benchmark with realistic road topology and censusderived demand, under mixed and full transit demand settings. In the Bloomington network, AlphaTransit attains the highest service rate in both demand settings, reaching 54.6% and 82.1%, respectively. Relative to reinforcement learning without search, these correspond to 9.9% and 11.4% service rate gains; relative to MCTS without learned guidance, they correspond to 2.5% and 11.2% gains. These results suggest that coupling learned guidance with MCTS is more effective than using either approach alone for transit network design. Our code and data are publicly available in https://github.com/poudel-bibek/AlphaTransit.