Colocando os Dados no Centro do Aprendizado por Reforço Multiagente Offline
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
September 18, 2024
Autores: Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius
cs.AI
Resumo
A aprendizagem por reforço multiagente (MARL) offline é uma direção emocionante de pesquisa que utiliza conjuntos de dados estáticos para encontrar políticas de controle ótimas para sistemas multiagentes. Embora o campo seja, por definição, orientado por dados, os esforços até agora têm negligenciado os dados em sua busca por resultados de ponta. Primeiramente, corroboramos essa afirmação ao examinar a literatura, mostrando como a maioria dos trabalhos gera seus próprios conjuntos de dados sem uma metodologia consistente e fornece informações escassas sobre as características desses conjuntos de dados. Em seguida, demonstramos por que negligenciar a natureza dos dados é problemático, por meio de exemplos marcantes de como o desempenho algorítmico está intimamente ligado ao conjunto de dados utilizado, exigindo uma base comum para experimentos no campo. Em resposta, damos um grande passo em direção à melhoria do uso de dados e da consciência de dados no MARL offline, com três contribuições-chave: (1) um guia claro para a geração de novos conjuntos de dados; (2) uma padronização de mais de 80 conjuntos de dados existentes, hospedados em um repositório publicamente disponível, utilizando um formato de armazenamento consistente e uma API fácil de usar; e (3) um conjunto de ferramentas de análise que nos permitem compreender melhor esses conjuntos de dados, auxiliando no desenvolvimento futuro.
English
Offline multi-agent reinforcement learning (MARL) is an exciting direction of
research that uses static datasets to find optimal control policies for
multi-agent systems. Though the field is by definition data-driven, efforts
have thus far neglected data in their drive to achieve state-of-the-art
results. We first substantiate this claim by surveying the literature, showing
how the majority of works generate their own datasets without consistent
methodology and provide sparse information about the characteristics of these
datasets. We then show why neglecting the nature of the data is problematic,
through salient examples of how tightly algorithmic performance is coupled to
the dataset used, necessitating a common foundation for experiments in the
field. In response, we take a big step towards improving data usage and data
awareness in offline MARL, with three key contributions: (1) a clear guideline
for generating novel datasets; (2) a standardisation of over 80 existing
datasets, hosted in a publicly available repository, using a consistent storage
format and easy-to-use API; and (3) a suite of analysis tools that allow us to
understand these datasets better, aiding further development.Summary
AI-Generated Summary