ChatPaper.aiChatPaper

SRMT: Gemeinsamer Speicher für Multi-Agenten lebenslanges Pfadfinden

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

January 22, 2025
Autoren: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI

Zusammenfassung

Das Multi-Agenten-Verstärkungslernen (MARL) zeigt signifikante Fortschritte bei der Lösung kooperativer und kompetitiver Multi-Agenten-Probleme in verschiedenen Umgebungen. Eine der Hauptherausforderungen bei MARL besteht darin, die explizite Vorhersage des Verhaltens der Agenten zur Erreichung von Kooperation sicherzustellen. Zur Lösung dieses Problems schlagen wir den Shared Recurrent Memory Transformer (SRMT) vor, der Memory Transformer auf Multi-Agenten-Einstellungen erweitert, indem er individuelle Arbeitsgedächtnisse zusammenführt und global überträgt, wodurch Agenten Informationen implizit austauschen und ihre Aktionen koordinieren können. Wir evaluieren SRMT am teilweise beobachtbaren Multi-Agenten-Pfadfindungsproblem in einer einfachen Engpass-Navigationsaufgabe, bei der Agenten einen schmalen Korridor passieren müssen, sowie an einem Benchmark-Set von POGEMA-Aufgaben. In der Engpass-Aufgabe übertrifft SRMT konsequent eine Vielzahl von Verstärkungslern-Baselines, insbesondere bei spärlichen Belohnungen, und generalisiert effektiv auf längere Korridore als die während des Trainings gesehenen. Auf POGEMA-Karten, einschließlich Labyrinthe, Zufall und MovingAI, ist SRMT wettbewerbsfähig mit aktuellen MARL-, Hybrid- und planungsbasierten Algorithmen. Diese Ergebnisse legen nahe, dass die Integration von gemeinsamem wiederkehrendem Gedächtnis in die auf Transformer basierenden Architekturen die Koordination in dezentralen Multi-Agenten-Systemen verbessern kann. Der Quellcode für Training und Evaluation ist auf GitHub verfügbar: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress in solving cooperative and competitive multi-agent problems in various environments. One of the principal challenges in MARL is the need for explicit prediction of the agents' behavior to achieve cooperation. To resolve this issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends memory transformers to multi-agent settings by pooling and globally broadcasting individual working memories, enabling agents to exchange information implicitly and coordinate their actions. We evaluate SRMT on the Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck navigation task that requires agents to pass through a narrow corridor and on a POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently outperforms a variety of reinforcement learning baselines, especially under sparse rewards, and generalizes effectively to longer corridors than those seen during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is competitive with recent MARL, hybrid, and planning-based algorithms. These results suggest that incorporating shared recurrent memory into the transformer-based architectures can enhance coordination in decentralized multi-agent systems. The source code for training and evaluation is available on GitHub: https://github.com/Aloriosa/srmt.

Summary

AI-Generated Summary

PDF683January 24, 2025