大規模マルチエージェント経路探索のための局所通信学習
Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding
May 12, 2026
著者: Valeriy Vyaltsev, Alsu Sagirova, Anton Andreychuk, Oleg Bulichev, Yuri Kuratov, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik
cs.AI
要旨
マルチエージェント経路探索(MAPF)は、共有環境内で複数の均質なエージェントが同時に移動するマルチロボット軌道計画問題の広く用いられる抽象化である。MAPFを最適に解くことはNP困難であるが、スケーラブルで効率的な解法は物流や捜索救助などの実世界応用にとって重要である。この目的のため、研究コミュニティは機械学習を活用した様々な分散型の準最適MAPF解法を提案してきた。そのような手法はMAPFを(単一エージェントの観点から)Dec-POMDPとして捉え、各タイムステップでエージェントが局所観測に基づいて行動を決定する必要があり、通常は強化学習または模倣学習によって問題を解決する。我々も同様のアプローチを採用するが、さらに効率的な特徴共有を通じてエージェント間の協調を強化するために調整された学習可能な通信モジュールを導入する。本稿では、近隣エージェント間の複数ラウンドの通信を適用して情報を交換し協調を改善する汎化可能な事前学習モデルである、マルチエージェント経路探索のためのローカル通信(LC-MAPF)を提案する。実験では、提案手法が多様な(未見の)テストシナリオにおいて、ILやRLベースの手法を含む既存の学習ベースMAPF解法を様々な指標で上回ることを示す。注目すべき点として、導入した通信機構はLC-MAPFのスケーラビリティを損なわない。これは通信ベースのMAPF解法における一般的なボトルネックである。
English
Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.