SRMT: Memoria Condivisa per la Pianificazione Continua del Percorso Multi-agente
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
January 22, 2025
Autori: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI
Abstract
Il Reinforcement Learning Multi-agente (MARL) dimostra significativi progressi nella risoluzione di problemi multi-agente cooperativi e competitivi in vari ambienti. Una delle principali sfide nel MARL è la necessità di una previsione esplicita del comportamento degli agenti per raggiungere la cooperazione. Per risolvere questo problema, proponiamo il Shared Recurrent Memory Transformer (SRMT) che estende i memory transformers ai contesti multi-agente mediante l'aggregazione e la trasmissione globale delle memorie di lavoro individuali, consentendo agli agenti di scambiare informazioni implicitamente e coordinare le loro azioni. Valutiamo SRMT sul problema Partially Observable Multi-Agent Pathfinding in un compito di navigazione in un imbuto giocattolo che richiede agli agenti di passare attraverso un corridoio stretto e su un set di compiti di benchmark POGEMA. Nel compito dell'imbuto, SRMT supera costantemente una varietà di basi di apprendimento per rinforzo, specialmente con ricompense scarse, e generalizza in modo efficace a corridoi più lunghi rispetto a quelli visti durante l'addestramento. Sulle mappe POGEMA, incluse Mazes, Random e MovingAI, SRMT è competitivo con recenti algoritmi MARL, ibridi e basati su pianificazione. Questi risultati suggeriscono che l'incorporazione di memoria ricorrente condivisa nelle architetture basate su transformer può migliorare il coordinamento nei sistemi multi-agente decentralizzati. Il codice sorgente per l'addestramento e la valutazione è disponibile su GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress
in solving cooperative and competitive multi-agent problems in various
environments. One of the principal challenges in MARL is the need for explicit
prediction of the agents' behavior to achieve cooperation. To resolve this
issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends
memory transformers to multi-agent settings by pooling and globally
broadcasting individual working memories, enabling agents to exchange
information implicitly and coordinate their actions. We evaluate SRMT on the
Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck
navigation task that requires agents to pass through a narrow corridor and on a
POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently
outperforms a variety of reinforcement learning baselines, especially under
sparse rewards, and generalizes effectively to longer corridors than those seen
during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is
competitive with recent MARL, hybrid, and planning-based algorithms. These
results suggest that incorporating shared recurrent memory into the
transformer-based architectures can enhance coordination in decentralized
multi-agent systems. The source code for training and evaluation is available
on GitHub: https://github.com/Aloriosa/srmt.Summary
AI-Generated Summary