SRMT: Общая память для многоагентного планирования пути на протяжении жизни.
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
January 22, 2025
Авторы: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI
Аннотация
Многоагентное обучение с подкреплением (MARL) демонстрирует значительный прогресс в решении кооперативных и конкурентных многоагентных проблем в различных средах. Одним из основных вызовов в MARL является необходимость явного прогнозирования поведения агентов для достижения сотрудничества. Для решения этой проблемы мы предлагаем Shared Recurrent Memory Transformer (SRMT), который расширяет памятьные трансформеры до многоагентных сред, объединяя и глобально транслируя индивидуальные рабочие памяти, позволяя агентам неявно обмениваться информацией и координировать свои действия. Мы оцениваем SRMT на проблеме частично наблюдаемого многоагентного поиска пути в игрушечной задаче узкого участка, требующей от агентов пройти через узкий коридор, а также на наборе задач POGEMA. В задаче узкого участка SRMT последовательно превосходит различные базовые методы обучения с подкреплением, особенно при разреженных вознаграждениях, и эффективно обобщается на более длинные коридоры, чем те, которые виделись во время обучения. На картах POGEMA, включая Лабиринты, Случайные и MovingAI, SRMT конкурентоспособен с недавними алгоритмами MARL, гибридными и планировочными. Эти результаты свидетельствуют о том, что включение общей рекуррентной памяти в архитектуры на основе трансформеров может улучшить координацию в децентрализованных многоагентных системах. Исходный код для обучения и оценки доступен на GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress
in solving cooperative and competitive multi-agent problems in various
environments. One of the principal challenges in MARL is the need for explicit
prediction of the agents' behavior to achieve cooperation. To resolve this
issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends
memory transformers to multi-agent settings by pooling and globally
broadcasting individual working memories, enabling agents to exchange
information implicitly and coordinate their actions. We evaluate SRMT on the
Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck
navigation task that requires agents to pass through a narrow corridor and on a
POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently
outperforms a variety of reinforcement learning baselines, especially under
sparse rewards, and generalizes effectively to longer corridors than those seen
during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is
competitive with recent MARL, hybrid, and planning-based algorithms. These
results suggest that incorporating shared recurrent memory into the
transformer-based architectures can enhance coordination in decentralized
multi-agent systems. The source code for training and evaluation is available
on GitHub: https://github.com/Aloriosa/srmt.Summary
AI-Generated Summary