SRMT: Общая память для многоагентного планирования пути на протяжении жизни.SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
Многоагентное обучение с подкреплением (MARL) демонстрирует значительный прогресс в решении кооперативных и конкурентных многоагентных проблем в различных средах. Одним из основных вызовов в MARL является необходимость явного прогнозирования поведения агентов для достижения сотрудничества. Для решения этой проблемы мы предлагаем Shared Recurrent Memory Transformer (SRMT), который расширяет памятьные трансформеры до многоагентных сред, объединяя и глобально транслируя индивидуальные рабочие памяти, позволяя агентам неявно обмениваться информацией и координировать свои действия. Мы оцениваем SRMT на проблеме частично наблюдаемого многоагентного поиска пути в игрушечной задаче узкого участка, требующей от агентов пройти через узкий коридор, а также на наборе задач POGEMA. В задаче узкого участка SRMT последовательно превосходит различные базовые методы обучения с подкреплением, особенно при разреженных вознаграждениях, и эффективно обобщается на более длинные коридоры, чем те, которые виделись во время обучения. На картах POGEMA, включая Лабиринты, Случайные и MovingAI, SRMT конкурентоспособен с недавними алгоритмами MARL, гибридными и планировочными. Эти результаты свидетельствуют о том, что включение общей рекуррентной памяти в архитектуры на основе трансформеров может улучшить координацию в децентрализованных многоагентных системах. Исходный код для обучения и оценки доступен на GitHub: https://github.com/Aloriosa/srmt.