SRMT: Memoria Compartida para la Búsqueda de Rutas de por Vida Multiagente
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
January 22, 2025
Autores: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI
Resumen
El aprendizaje por refuerzo multiagente (MARL) muestra un progreso significativo en la resolución de problemas multiagente cooperativos y competitivos en diversos entornos. Uno de los principales desafíos en MARL es la necesidad de predecir explícitamente el comportamiento de los agentes para lograr la cooperación. Para resolver este problema, proponemos el Transformador de Memoria Compartida Recurrente (SRMT), que extiende los transformadores de memoria a entornos multiagente mediante la agrupación y difusión global de las memorias de trabajo individuales, permitiendo a los agentes intercambiar información de forma implícita y coordinar sus acciones. Evaluamos SRMT en el problema de Búsqueda de Rutas Multiagente Parcialmente Observables en una tarea de navegación de Cuello de Botella de juguete que requiere que los agentes pasen por un pasillo estrecho y en un conjunto de tareas de referencia POGEMA. En la tarea de Cuello de Botella, SRMT supera consistentemente a una variedad de baselines de aprendizaje por refuerzo, especialmente bajo recompensas escasas, y generaliza de manera efectiva a pasillos más largos que los vistos durante el entrenamiento. En los mapas de POGEMA, incluidos Laberintos, Aleatorios y MovingAI, SRMT es competitivo con algoritmos recientes de MARL, híbridos y basados en planificación. Estos resultados sugieren que la incorporación de memoria recurrente compartida en las arquitecturas basadas en transformadores puede mejorar la coordinación en sistemas multiagente descentralizados. El código fuente para entrenamiento y evaluación está disponible en GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress
in solving cooperative and competitive multi-agent problems in various
environments. One of the principal challenges in MARL is the need for explicit
prediction of the agents' behavior to achieve cooperation. To resolve this
issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends
memory transformers to multi-agent settings by pooling and globally
broadcasting individual working memories, enabling agents to exchange
information implicitly and coordinate their actions. We evaluate SRMT on the
Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck
navigation task that requires agents to pass through a narrow corridor and on a
POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently
outperforms a variety of reinforcement learning baselines, especially under
sparse rewards, and generalizes effectively to longer corridors than those seen
during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is
competitive with recent MARL, hybrid, and planning-based algorithms. These
results suggest that incorporating shared recurrent memory into the
transformer-based architectures can enhance coordination in decentralized
multi-agent systems. The source code for training and evaluation is available
on GitHub: https://github.com/Aloriosa/srmt.Summary
AI-Generated Summary