Помещение данных в центр офлайн мультиагентного обучения с подкреплением
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
September 18, 2024
Авторы: Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius
cs.AI
Аннотация
Офлайн обучение с подкреплением для мультиагентных систем (MARL) представляет собой увлекательное направление исследований, которое использует статические наборы данных для нахождения оптимальных стратегий управления для мультиагентных систем. Хотя область по своей сути ориентирована на данные, усилия до сих пор пренебрегали данными в стремлении достичь передовых результатов. Вначале мы подтверждаем это утверждение, проанализировав литературу и показав, как большинство работ создают собственные наборы данных без последовательной методологии и предоставляют ограниченную информацию о характеристиках этих наборов данных. Затем мы показываем, почему игнорирование характеристик данных проблематично, приводя яркие примеры того, как тесно производительность алгоритма связана с использованным набором данных, что требует общего фундамента для экспериментов в данной области. В ответ на это мы делаем большой шаг к улучшению использования данных и осознания данных в офлайн MARL, внесая три ключевых вклада: (1) четкое руководство по созданию новых наборов данных; (2) стандартизацию более 80 существующих наборов данных, размещенных в общедоступном репозитории, с использованием единого формата хранения и удобного API; и (3) набор инструментов для анализа, которые позволяют нам лучше понять эти наборы данных, способствуя дальнейшему развитию.
English
Offline multi-agent reinforcement learning (MARL) is an exciting direction of
research that uses static datasets to find optimal control policies for
multi-agent systems. Though the field is by definition data-driven, efforts
have thus far neglected data in their drive to achieve state-of-the-art
results. We first substantiate this claim by surveying the literature, showing
how the majority of works generate their own datasets without consistent
methodology and provide sparse information about the characteristics of these
datasets. We then show why neglecting the nature of the data is problematic,
through salient examples of how tightly algorithmic performance is coupled to
the dataset used, necessitating a common foundation for experiments in the
field. In response, we take a big step towards improving data usage and data
awareness in offline MARL, with three key contributions: (1) a clear guideline
for generating novel datasets; (2) a standardisation of over 80 existing
datasets, hosted in a publicly available repository, using a consistent storage
format and easy-to-use API; and (3) a suite of analysis tools that allow us to
understand these datasets better, aiding further development.Summary
AI-Generated Summary