SRMT: Memoria Condivisa per la Pianificazione Continua del Percorso Multi-agenteSRMT: Shared Memory for Multi-agent Lifelong Pathfinding
Il Reinforcement Learning Multi-agente (MARL) dimostra significativi progressi nella risoluzione di problemi multi-agente cooperativi e competitivi in vari ambienti. Una delle principali sfide nel MARL è la necessità di una previsione esplicita del comportamento degli agenti per raggiungere la cooperazione. Per risolvere questo problema, proponiamo il Shared Recurrent Memory Transformer (SRMT) che estende i memory transformers ai contesti multi-agente mediante l'aggregazione e la trasmissione globale delle memorie di lavoro individuali, consentendo agli agenti di scambiare informazioni implicitamente e coordinare le loro azioni. Valutiamo SRMT sul problema Partially Observable Multi-Agent Pathfinding in un compito di navigazione in un imbuto giocattolo che richiede agli agenti di passare attraverso un corridoio stretto e su un set di compiti di benchmark POGEMA. Nel compito dell'imbuto, SRMT supera costantemente una varietà di basi di apprendimento per rinforzo, specialmente con ricompense scarse, e generalizza in modo efficace a corridoi più lunghi rispetto a quelli visti durante l'addestramento. Sulle mappe POGEMA, incluse Mazes, Random e MovingAI, SRMT è competitivo con recenti algoritmi MARL, ibridi e basati su pianificazione. Questi risultati suggeriscono che l'incorporazione di memoria ricorrente condivisa nelle architetture basate su transformer può migliorare il coordinamento nei sistemi multi-agente decentralizzati. Il codice sorgente per l'addestramento e la valutazione è disponibile su GitHub: https://github.com/Aloriosa/srmt.