SRMT: Memoria Compartida para la Búsqueda de Rutas de por Vida MultiagenteSRMT: Shared Memory for Multi-agent Lifelong Pathfinding
El aprendizaje por refuerzo multiagente (MARL) muestra un progreso significativo en la resolución de problemas multiagente cooperativos y competitivos en diversos entornos. Uno de los principales desafíos en MARL es la necesidad de predecir explícitamente el comportamiento de los agentes para lograr la cooperación. Para resolver este problema, proponemos el Transformador de Memoria Compartida Recurrente (SRMT), que extiende los transformadores de memoria a entornos multiagente mediante la agrupación y difusión global de las memorias de trabajo individuales, permitiendo a los agentes intercambiar información de forma implícita y coordinar sus acciones. Evaluamos SRMT en el problema de Búsqueda de Rutas Multiagente Parcialmente Observables en una tarea de navegación de Cuello de Botella de juguete que requiere que los agentes pasen por un pasillo estrecho y en un conjunto de tareas de referencia POGEMA. En la tarea de Cuello de Botella, SRMT supera consistentemente a una variedad de baselines de aprendizaje por refuerzo, especialmente bajo recompensas escasas, y generaliza de manera efectiva a pasillos más largos que los vistos durante el entrenamiento. En los mapas de POGEMA, incluidos Laberintos, Aleatorios y MovingAI, SRMT es competitivo con algoritmos recientes de MARL, híbridos y basados en planificación. Estos resultados sugieren que la incorporación de memoria recurrente compartida en las arquitecturas basadas en transformadores puede mejorar la coordinación en sistemas multiagente descentralizados. El código fuente para entrenamiento y evaluación está disponible en GitHub: https://github.com/Aloriosa/srmt.