Colocando los Datos en el Centro del Aprendizaje por Refuerzo Multiagente sin Conexión.
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
September 18, 2024
Autores: Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius
cs.AI
Resumen
El aprendizaje por refuerzo multiagente (MARL) sin conexión es una dirección emocionante de investigación que utiliza conjuntos de datos estáticos para encontrar políticas de control óptimas para sistemas multiagente. Aunque el campo es, por definición, impulsado por datos, hasta ahora los esfuerzos han descuidado los datos en su afán por lograr resultados de vanguardia. Primero respaldamos esta afirmación mediante una revisión de la literatura, mostrando cómo la mayoría de los trabajos generan sus propios conjuntos de datos sin una metodología consistente y proporcionan poca información sobre las características de estos conjuntos de datos. Luego demostramos por qué descuidar la naturaleza de los datos es problemático, a través de ejemplos destacados de cómo el rendimiento algorítmico está estrechamente vinculado al conjunto de datos utilizado, lo que hace necesaria una base común para experimentos en el campo. En respuesta, damos un gran paso hacia la mejora del uso de datos y la conciencia de datos en MARL sin conexión, con tres contribuciones clave: (1) una guía clara para generar conjuntos de datos novedosos; (2) una estandarización de más de 80 conjuntos de datos existentes, alojados en un repositorio de acceso público, utilizando un formato de almacenamiento consistente y una API fácil de usar; y (3) un conjunto de herramientas de análisis que nos permiten comprender mejor estos conjuntos de datos, facilitando un mayor desarrollo.
English
Offline multi-agent reinforcement learning (MARL) is an exciting direction of
research that uses static datasets to find optimal control policies for
multi-agent systems. Though the field is by definition data-driven, efforts
have thus far neglected data in their drive to achieve state-of-the-art
results. We first substantiate this claim by surveying the literature, showing
how the majority of works generate their own datasets without consistent
methodology and provide sparse information about the characteristics of these
datasets. We then show why neglecting the nature of the data is problematic,
through salient examples of how tightly algorithmic performance is coupled to
the dataset used, necessitating a common foundation for experiments in the
field. In response, we take a big step towards improving data usage and data
awareness in offline MARL, with three key contributions: (1) a clear guideline
for generating novel datasets; (2) a standardisation of over 80 existing
datasets, hosted in a publicly available repository, using a consistent storage
format and easy-to-use API; and (3) a suite of analysis tools that allow us to
understand these datasets better, aiding further development.Summary
AI-Generated Summary