SRMT:多智能體終身路徑規劃的共享記憶SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
多智能體強化學習(MARL)在各種環境中解決合作和競爭性多智能體問題方面取得了顯著進展。MARL面臨的主要挑戰之一是需要明確預測智能體的行為以實現合作。為了解決這個問題,我們提出了共享遞歸記憶轉換器(SRMT),它將記憶轉換器擴展到多智能體設置中,通過汇集和全局廣播個別的工作記憶,使智能體能夠隱式交換信息並協調其行動。我們在部分可觀察多智能體路徑規劃問題中對SRMT進行評估,在這個玩具 Eng Bottleneck 導航任務中,智能體需要通過狹窄走廊,以及在 POGEMA 基準任務集上進行評估。在 Bottleneck 任務中,SRMT在各種強化學習基準中表現出色,特別是在稀疏獎勵下,並且能夠有效地推廣到比訓練中見過的更長走廊。在包括迷宮、隨機和 MovingAI 在內的 POGEMA 地圖上,SRMT與最近的MARL、混合和基於規劃的算法相媲美。這些結果表明,在基於轉換器的架構中融入共享遞歸記憶可以增強分散式多智能體系統中的協調。訓練和評估的源代碼可在 GitHub 上找到:https://github.com/Aloriosa/srmt。