SRMT: Memória Compartilhada para Navegação Contínua de Múltiplos AgentesSRMT: Shared Memory for Multi-agent Lifelong Pathfinding
A aprendizagem por reforço multiagente (MARL) demonstra progresso significativo na resolução de problemas multiagente cooperativos e competitivos em diversos ambientes. Um dos principais desafios em MARL é a necessidade de prever explicitamente o comportamento dos agentes para alcançar a cooperação. Para resolver essa questão, propomos o Transformador de Memória Recorrente Compartilhada (SRMT), que estende os transformadores de memória para configurações multiagente por meio da agregação e transmissão global das memórias de trabalho individuais, permitindo que os agentes troquem informações implicitamente e coordenem suas ações. Avaliamos o SRMT no problema de Caminho de Multiagente Parcialmente Observável em uma tarefa de navegação em gargalo de brinquedo que exige que os agentes passem por um corredor estreito e em um conjunto de tarefas de referência POGEMA. Na tarefa de Gargalo, o SRMT supera consistentemente uma variedade de baselines de aprendizagem por reforço, especialmente sob recompensas esparsas, e generaliza efetivamente para corredores mais longos do que os vistos durante o treinamento. Nos mapas POGEMA, incluindo Labirintos, Aleatórios e MovingAI, o SRMT é competitivo com algoritmos recentes de MARL, híbridos e baseados em planejamento. Esses resultados sugerem que a incorporação de memória recorrente compartilhada nas arquiteturas baseadas em transformadores pode aprimorar a coordenação em sistemas multiagente descentralizados. O código-fonte para treinamento e avaliação está disponível no GitHub: https://github.com/Aloriosa/srmt.