Het Plaatsen van Data in het Midden van Offline Multi-Agent Versterkend Leren

Samenvatting

Offline multi-agent reinforcement learning (MARL) is een opwindende onderzoeksrichting die statische datasets gebruikt om optimale besturingsbeleidslijnen te vinden voor multi-agent systemen. Hoewel het veld per definitie op gegevens is gebaseerd, hebben inspanningen tot nu toe gegevens verwaarloosd in hun streven naar state-of-the-art resultaten. We onderbouwen deze bewering eerst door de literatuur te onderzoeken, waarbij we laten zien hoe de meerderheid van de werken hun eigen datasets genereert zonder consistente methodologie en weinig informatie verstrekt over de kenmerken van deze datasets. Vervolgens laten we zien waarom het negeren van de aard van de gegevens problematisch is, aan de hand van sprekende voorbeelden van hoe sterk de algoritmische prestaties gekoppeld zijn aan de gebruikte dataset, wat een gemeenschappelijke basis voor experimenten op dit gebied noodzakelijk maakt. Als reactie zetten we een grote stap naar het verbeteren van het gebruik van gegevens en gegevensbewustzijn in offline MARL, met drie belangrijke bijdragen: (1) een duidelijke richtlijn voor het genereren van nieuwe datasets; (2) een standaardisatie van meer dan 80 bestaande datasets, gehost in een openbaar beschikbaar repository, met behulp van een consistente opslagindeling en een eenvoudig te gebruiken API; en (3) een reeks analysehulpmiddelen waarmee we deze datasets beter kunnen begrijpen, wat verdere ontwikkeling ondersteunt.

English

Offline multi-agent reinforcement learning (MARL) is an exciting direction of research that uses static datasets to find optimal control policies for multi-agent systems. Though the field is by definition data-driven, efforts have thus far neglected data in their drive to achieve state-of-the-art results. We first substantiate this claim by surveying the literature, showing how the majority of works generate their own datasets without consistent methodology and provide sparse information about the characteristics of these datasets. We then show why neglecting the nature of the data is problematic, through salient examples of how tightly algorithmic performance is coupled to the dataset used, necessitating a common foundation for experiments in the field. In response, we take a big step towards improving data usage and data awareness in offline MARL, with three key contributions: (1) a clear guideline for generating novel datasets; (2) a standardisation of over 80 existing datasets, hosted in a publicly available repository, using a consistent storage format and easy-to-use API; and (3) a suite of analysis tools that allow us to understand these datasets better, aiding further development.

Het Plaatsen van Data in het Midden van Offline Multi-Agent Versterkend Leren

Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning

Samenvatting

Support