Mettre les données au centre de l'apprentissage par renforcement multi-agent hors ligne
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
September 18, 2024
Auteurs: Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius
cs.AI
Résumé
L'apprentissage par renforcement multi-agent (MARL) hors ligne est une direction de recherche passionnante qui utilise des ensembles de données statiques pour trouver des politiques de contrôle optimales pour les systèmes multi-agents. Bien que le domaine soit par définition axé sur les données, les efforts ont jusqu'à présent négligé les données dans leur quête de résultats de pointe. Nous étayons d'abord cette affirmation en examinant la littérature, montrant comment la majorité des travaux génèrent leurs propres ensembles de données sans méthodologie cohérente et fournissent peu d'informations sur les caractéristiques de ces ensembles de données. Nous montrons ensuite pourquoi négliger la nature des données pose problème, à travers des exemples saillants de la façon dont les performances algorithmiques sont étroitement liées à l'ensemble de données utilisé, nécessitant une base commune pour les expériences dans le domaine. En réponse, nous faisons un grand pas vers l'amélioration de l'utilisation des données et de la sensibilisation aux données dans le MARL hors ligne, avec trois contributions clés : (1) des directives claires pour la génération de nouveaux ensembles de données ; (2) une normalisation de plus de 80 ensembles de données existants, hébergés dans un référentiel disponible publiquement, en utilisant un format de stockage cohérent et une API facile à utiliser ; et (3) un ensemble d'outils d'analyse qui nous permettent de mieux comprendre ces ensembles de données, aidant ainsi au développement ultérieur.
English
Offline multi-agent reinforcement learning (MARL) is an exciting direction of
research that uses static datasets to find optimal control policies for
multi-agent systems. Though the field is by definition data-driven, efforts
have thus far neglected data in their drive to achieve state-of-the-art
results. We first substantiate this claim by surveying the literature, showing
how the majority of works generate their own datasets without consistent
methodology and provide sparse information about the characteristics of these
datasets. We then show why neglecting the nature of the data is problematic,
through salient examples of how tightly algorithmic performance is coupled to
the dataset used, necessitating a common foundation for experiments in the
field. In response, we take a big step towards improving data usage and data
awareness in offline MARL, with three key contributions: (1) a clear guideline
for generating novel datasets; (2) a standardisation of over 80 existing
datasets, hosted in a publicly available repository, using a consistent storage
format and easy-to-use API; and (3) a suite of analysis tools that allow us to
understand these datasets better, aiding further development.Summary
AI-Generated Summary