SRMT: Gedeeld Geheugen voor Multi-agent Levenslang PadvindenSRMT: Shared Memory for Multi-agent Lifelong Pathfinding
Multi-agent reinforcement learning (MARL) toont aanzienlijke vooruitgang in het oplossen van samenwerkings- en competitieve multi-agent problemen in verschillende omgevingen. Een van de belangrijkste uitdagingen in MARL is de noodzaak voor een expliciete voorspelling van het gedrag van de agenten om samenwerking te bereiken. Om dit probleem op te lossen, stellen we de Gedeelde Recurrente Geheugen Transformer (SRMT) voor, die geheugen transformers uitbreidt naar multi-agent omgevingen door individuele werkgeheugens samen te voegen en wereldwijd uit te zenden, waardoor agenten informatie impliciet kunnen uitwisselen en hun acties kunnen coördineren. We evalueren SRMT op het Gedeeltelijk Waarneembare Multi-Agent Padvindingsprobleem in een speelgoedflessenhalsnavigatietaak waarbij agenten door een smalle gang moeten gaan en op een POGEMA benchmarkset van taken. In de Flessenhals taak presteert SRMT consequent beter dan verschillende reinforcement learning baselines, vooral bij schaarse beloningen, en generaliseert effectief naar langere gangen dan die tijdens de training zijn gezien. Op POGEMA-kaarten, waaronder Doolhoven, Willekeurig en MovingAI, is SRMT concurrerend met recente MARL, hybride en op planning gebaseerde algoritmen. Deze resultaten suggereren dat het opnemen van gedeeld recurrent geheugen in op transformer gebaseerde architecturen de coördinatie in gedecentraliseerde multi-agent systemen kan verbeteren. De broncode voor training en evaluatie is beschikbaar op GitHub: https://github.com/Aloriosa/srmt.