SRMT: Memória Compartilhada para Navegação Contínua de Múltiplos Agentes
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
January 22, 2025
Autores: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI
Resumo
A aprendizagem por reforço multiagente (MARL) demonstra progresso significativo na resolução de problemas multiagente cooperativos e competitivos em diversos ambientes. Um dos principais desafios em MARL é a necessidade de prever explicitamente o comportamento dos agentes para alcançar a cooperação. Para resolver essa questão, propomos o Transformador de Memória Recorrente Compartilhada (SRMT), que estende os transformadores de memória para configurações multiagente por meio da agregação e transmissão global das memórias de trabalho individuais, permitindo que os agentes troquem informações implicitamente e coordenem suas ações. Avaliamos o SRMT no problema de Caminho de Multiagente Parcialmente Observável em uma tarefa de navegação em gargalo de brinquedo que exige que os agentes passem por um corredor estreito e em um conjunto de tarefas de referência POGEMA. Na tarefa de Gargalo, o SRMT supera consistentemente uma variedade de baselines de aprendizagem por reforço, especialmente sob recompensas esparsas, e generaliza efetivamente para corredores mais longos do que os vistos durante o treinamento. Nos mapas POGEMA, incluindo Labirintos, Aleatórios e MovingAI, o SRMT é competitivo com algoritmos recentes de MARL, híbridos e baseados em planejamento. Esses resultados sugerem que a incorporação de memória recorrente compartilhada nas arquiteturas baseadas em transformadores pode aprimorar a coordenação em sistemas multiagente descentralizados. O código-fonte para treinamento e avaliação está disponível no GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress
in solving cooperative and competitive multi-agent problems in various
environments. One of the principal challenges in MARL is the need for explicit
prediction of the agents' behavior to achieve cooperation. To resolve this
issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends
memory transformers to multi-agent settings by pooling and globally
broadcasting individual working memories, enabling agents to exchange
information implicitly and coordinate their actions. We evaluate SRMT on the
Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck
navigation task that requires agents to pass through a narrow corridor and on a
POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently
outperforms a variety of reinforcement learning baselines, especially under
sparse rewards, and generalizes effectively to longer corridors than those seen
during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is
competitive with recent MARL, hybrid, and planning-based algorithms. These
results suggest that incorporating shared recurrent memory into the
transformer-based architectures can enhance coordination in decentralized
multi-agent systems. The source code for training and evaluation is available
on GitHub: https://github.com/Aloriosa/srmt.Summary
AI-Generated Summary