ChatPaper.aiChatPaper

SRMT: Memoria Compartida para la Búsqueda de Rutas de por Vida Multiagente

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

January 22, 2025
Autores: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI

Resumen

El aprendizaje por refuerzo multiagente (MARL) muestra un progreso significativo en la resolución de problemas multiagente cooperativos y competitivos en diversos entornos. Uno de los principales desafíos en MARL es la necesidad de predecir explícitamente el comportamiento de los agentes para lograr la cooperación. Para resolver este problema, proponemos el Transformador de Memoria Compartida Recurrente (SRMT), que extiende los transformadores de memoria a entornos multiagente mediante la agrupación y difusión global de las memorias de trabajo individuales, permitiendo a los agentes intercambiar información de forma implícita y coordinar sus acciones. Evaluamos SRMT en el problema de Búsqueda de Rutas Multiagente Parcialmente Observables en una tarea de navegación de Cuello de Botella de juguete que requiere que los agentes pasen por un pasillo estrecho y en un conjunto de tareas de referencia POGEMA. En la tarea de Cuello de Botella, SRMT supera consistentemente a una variedad de baselines de aprendizaje por refuerzo, especialmente bajo recompensas escasas, y generaliza de manera efectiva a pasillos más largos que los vistos durante el entrenamiento. En los mapas de POGEMA, incluidos Laberintos, Aleatorios y MovingAI, SRMT es competitivo con algoritmos recientes de MARL, híbridos y basados en planificación. Estos resultados sugieren que la incorporación de memoria recurrente compartida en las arquitecturas basadas en transformadores puede mejorar la coordinación en sistemas multiagente descentralizados. El código fuente para entrenamiento y evaluación está disponible en GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress in solving cooperative and competitive multi-agent problems in various environments. One of the principal challenges in MARL is the need for explicit prediction of the agents' behavior to achieve cooperation. To resolve this issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends memory transformers to multi-agent settings by pooling and globally broadcasting individual working memories, enabling agents to exchange information implicitly and coordinate their actions. We evaluate SRMT on the Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck navigation task that requires agents to pass through a narrow corridor and on a POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently outperforms a variety of reinforcement learning baselines, especially under sparse rewards, and generalizes effectively to longer corridors than those seen during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is competitive with recent MARL, hybrid, and planning-based algorithms. These results suggest that incorporating shared recurrent memory into the transformer-based architectures can enhance coordination in decentralized multi-agent systems. The source code for training and evaluation is available on GitHub: https://github.com/Aloriosa/srmt.

Summary

AI-Generated Summary

PDF683January 24, 2025