MOMAland: Um Conjunto de Referências para Aprendizado por Reforço Multi-Objetivo de Múltiplos Agentes
MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning
July 23, 2024
Autores: Florian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu
cs.AI
Resumo
Muitas tarefas desafiadoras, como gerenciar sistemas de tráfego, redes elétricas ou cadeias de suprimentos, envolvem processos de tomada de decisão complexos que devem equilibrar múltiplos objetivos conflitantes e coordenar as ações de vários tomadores de decisão independentes (DMs). Uma perspectiva para formalizar e abordar tais tarefas é o aprendizado por reforço multiobjetivo multiagente (MOMARL). O MOMARL amplia o aprendizado por reforço (RL) para problemas com múltiplos agentes, cada um precisando considerar múltiplos objetivos em seu processo de aprendizado. Na pesquisa de aprendizado por reforço, os benchmarks são cruciais para facilitar o progresso, a avaliação e a reprodutibilidade. A importância dos benchmarks é destacada pela existência de inúmeros frameworks de benchmark desenvolvidos para vários paradigmas de RL, incluindo RL de agente único (por exemplo, Gymnasium), RL multiagente (por exemplo, PettingZoo) e RL de agente único multiobjetivo (por exemplo, MO-Gymnasium). Para apoiar o avanço do campo MOMARL, apresentamos o MOMAland, a primeira coleção de ambientes padronizados para aprendizado por reforço multiobjetivo multiagente. O MOMAland aborda a necessidade de benchmarking abrangente neste campo emergente, oferecendo mais de 10 ambientes diversos que variam no número de agentes, representações de estado, estruturas de recompensa e considerações de utilidade. Para fornecer bases sólidas para pesquisas futuras, o MOMAland também inclui algoritmos capazes de aprender políticas nesses cenários.
English
Many challenging tasks such as managing traffic systems, electricity grids,
or supply chains involve complex decision-making processes that must balance
multiple conflicting objectives and coordinate the actions of various
independent decision-makers (DMs). One perspective for formalising and
addressing such tasks is multi-objective multi-agent reinforcement learning
(MOMARL). MOMARL broadens reinforcement learning (RL) to problems with multiple
agents each needing to consider multiple objectives in their learning process.
In reinforcement learning research, benchmarks are crucial in facilitating
progress, evaluation, and reproducibility. The significance of benchmarks is
underscored by the existence of numerous benchmark frameworks developed for
various RL paradigms, including single-agent RL (e.g., Gymnasium), multi-agent
RL (e.g., PettingZoo), and single-agent multi-objective RL (e.g.,
MO-Gymnasium). To support the advancement of the MOMARL field, we introduce
MOMAland, the first collection of standardised environments for multi-objective
multi-agent reinforcement learning. MOMAland addresses the need for
comprehensive benchmarking in this emerging field, offering over 10 diverse
environments that vary in the number of agents, state representations, reward
structures, and utility considerations. To provide strong baselines for future
research, MOMAland also includes algorithms capable of learning policies in
such settings.