Posizionare i Dati al Centro dell'Apprendimento per Rinforzo Multi-Agente Offline.

Abstract

Il reinforcement learning multi-agente (MARL) offline è una direzione di ricerca entusiasmante che utilizza set di dati statici per trovare politiche di controllo ottimali per sistemi multi-agente. Sebbene il campo sia per definizione basato sui dati, gli sforzi finora hanno trascurato i dati nel loro tentativo di raggiungere risultati all'avanguardia. Prima di tutto, supportiamo questa affermazione esaminando la letteratura, mostrando come la maggior parte dei lavori generi i propri set di dati senza una metodologia coerente e fornisca scarse informazioni sulle caratteristiche di questi set di dati. Successivamente mostriamo perché trascurare la natura dei dati è problematico, attraverso esempi significativi di come le prestazioni algoritmiche siano strettamente legate al set di dati utilizzato, rendendo necessaria una base comune per gli esperimenti nel campo. In risposta, compiamo un grande passo verso il miglioramento dell'uso dei dati e della consapevolezza dei dati nel MARL offline, con tre contributi chiave: (1) linee guida chiare per la generazione di nuovi set di dati; (2) una standardizzazione di oltre 80 set di dati esistenti, ospitati in un repository pubblicamente disponibile, utilizzando un formato di archiviazione coerente e un'API facile da usare; e (3) una serie di strumenti di analisi che ci consentono di comprendere meglio questi set di dati, facilitando ulteriori sviluppi.

English

Offline multi-agent reinforcement learning (MARL) is an exciting direction of research that uses static datasets to find optimal control policies for multi-agent systems. Though the field is by definition data-driven, efforts have thus far neglected data in their drive to achieve state-of-the-art results. We first substantiate this claim by surveying the literature, showing how the majority of works generate their own datasets without consistent methodology and provide sparse information about the characteristics of these datasets. We then show why neglecting the nature of the data is problematic, through salient examples of how tightly algorithmic performance is coupled to the dataset used, necessitating a common foundation for experiments in the field. In response, we take a big step towards improving data usage and data awareness in offline MARL, with three key contributions: (1) a clear guideline for generating novel datasets; (2) a standardisation of over 80 existing datasets, hosted in a publicly available repository, using a consistent storage format and easy-to-use API; and (3) a suite of analysis tools that allow us to understand these datasets better, aiding further development.

Posizionare i Dati al Centro dell'Apprendimento per Rinforzo Multi-Agente Offline.

Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning

Abstract

Support