SRMT : Mémoire partagée pour la recherche de chemins à long terme multi-agents.SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
L'apprentissage par renforcement multi-agent (MARL) démontre des progrès significatifs dans la résolution de problèmes multi-agents coopératifs et compétitifs dans divers environnements. L'un des principaux défis du MARL est la nécessité de prédire explicitement le comportement des agents pour parvenir à la coopération. Pour résoudre ce problème, nous proposons le Transformateur de Mémoire Récurrente Partagée (SRMT) qui étend les transformateurs de mémoire aux paramètres multi-agents en regroupant et diffusant globalement les mémoires de travail individuelles, permettant aux agents d'échanger des informations implicitement et de coordonner leurs actions. Nous évaluons le SRMT sur le problème de recherche de chemin multi-agent partiellement observable dans une tâche de navigation en goulot d'étranglement qui nécessite que les agents passent par un couloir étroit et sur un ensemble de tâches de référence POGEMA. Dans la tâche du goulot d'étranglement, le SRMT surpasse de manière constante diverses lignes de base d'apprentissage par renforcement, en particulier en cas de récompenses rares, et généralise efficacement à des couloirs plus longs que ceux observés pendant l'entraînement. Sur les cartes POGEMA, y compris les labyrinthes, aléatoires et MovingAI, le SRMT est compétitif avec les récents algorithmes MARL, hybrides et basés sur la planification. Ces résultats suggèrent que l'incorporation de mémoire récurrente partagée dans les architectures basées sur les transformateurs peut améliorer la coordination dans les systèmes multi-agents décentralisés. Le code source pour l'entraînement et l'évaluation est disponible sur GitHub: https://github.com/Aloriosa/srmt.