ChatPaper.aiChatPaper

SRMT : Mémoire partagée pour la recherche de chemins à long terme multi-agents.

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

January 22, 2025
Auteurs: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI

Résumé

L'apprentissage par renforcement multi-agent (MARL) démontre des progrès significatifs dans la résolution de problèmes multi-agents coopératifs et compétitifs dans divers environnements. L'un des principaux défis du MARL est la nécessité de prédire explicitement le comportement des agents pour parvenir à la coopération. Pour résoudre ce problème, nous proposons le Transformateur de Mémoire Récurrente Partagée (SRMT) qui étend les transformateurs de mémoire aux paramètres multi-agents en regroupant et diffusant globalement les mémoires de travail individuelles, permettant aux agents d'échanger des informations implicitement et de coordonner leurs actions. Nous évaluons le SRMT sur le problème de recherche de chemin multi-agent partiellement observable dans une tâche de navigation en goulot d'étranglement qui nécessite que les agents passent par un couloir étroit et sur un ensemble de tâches de référence POGEMA. Dans la tâche du goulot d'étranglement, le SRMT surpasse de manière constante diverses lignes de base d'apprentissage par renforcement, en particulier en cas de récompenses rares, et généralise efficacement à des couloirs plus longs que ceux observés pendant l'entraînement. Sur les cartes POGEMA, y compris les labyrinthes, aléatoires et MovingAI, le SRMT est compétitif avec les récents algorithmes MARL, hybrides et basés sur la planification. Ces résultats suggèrent que l'incorporation de mémoire récurrente partagée dans les architectures basées sur les transformateurs peut améliorer la coordination dans les systèmes multi-agents décentralisés. Le code source pour l'entraînement et l'évaluation est disponible sur GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress in solving cooperative and competitive multi-agent problems in various environments. One of the principal challenges in MARL is the need for explicit prediction of the agents' behavior to achieve cooperation. To resolve this issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends memory transformers to multi-agent settings by pooling and globally broadcasting individual working memories, enabling agents to exchange information implicitly and coordinate their actions. We evaluate SRMT on the Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck navigation task that requires agents to pass through a narrow corridor and on a POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently outperforms a variety of reinforcement learning baselines, especially under sparse rewards, and generalizes effectively to longer corridors than those seen during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is competitive with recent MARL, hybrid, and planning-based algorithms. These results suggest that incorporating shared recurrent memory into the transformer-based architectures can enhance coordination in decentralized multi-agent systems. The source code for training and evaluation is available on GitHub: https://github.com/Aloriosa/srmt.

Summary

AI-Generated Summary

PDF683January 24, 2025