SRMT: 複数エージェントの生涯パス検索のための共有メモリSRMT: Shared Memory for Multi-agent Lifelong Pathfinding
多エージェント強化学習(MARL)は、さまざまな環境で協力的および競争的な多エージェント問題を解決する上で著しい進歩を示しています。MARLにおける主要な課題の1つは、協力を実現するためにエージェントの振る舞いを明示的に予測する必要があることです。この問題を解決するために、私たちはShared Recurrent Memory Transformer(SRMT)を提案します。SRMTは、メモリトランスフォーマーを拡張し、個々の作業メモリをプールし、グローバルにブロードキャストすることで、エージェントが情報を暗黙的に交換し、行動を調整できるようにします。私たちは、SRMTを部分観測多エージェント経路探索問題のおもちゃのボトルネックナビゲーションタスクとPOGEMAベンチマークタスクセットで評価します。ボトルネックタスクでは、SRMTは一貫してさまざまな強化学習ベースラインを上回り、特に希少な報酬の下で効果的に汎化し、トレーニング中に見られる以上の長い回廊にも適用できます。迷路、ランダム、MovingAIなどのPOGEMAマップでは、SRMTは最近のMARL、ハイブリッド、および計画ベースのアルゴリズムと競争力を持っています。これらの結果から、共有リカレントメモリをトランスフォーマーベースのアーキテクチャに組み込むことが、分散型多エージェントシステムにおける調整を向上させることが示唆されます。トレーニングと評価のためのソースコードはGitHubで入手できます:https://github.com/Aloriosa/srmt。